こんにちは、基盤整備グループの上西です。
AWSのGlue Crawlersでクローラーを実行する際にCSVファイルのままだと、date型にしたいデータがstringデータのままであったり、ダブルクォーテーションで囲った文字列がスペースで切れて隣のカラムのデータを上書きしてしまうなどの不都合が生じることがあるため、CSVファイルをParquetファイルとして出力したいことがありました。
ParquetファイルはCSVファイルに比べて容量が小さくカラム毎に型を定義することができるので、Glueデータカタログでデータベースとして扱いやすい特徴があります。
クローラー実行後にGlueのデータカタログからスキーマの編集でdate型にキャストするという方法もありますが、後述する今回の要件に適合しないためGlue ETL jobsを使用する方法にしました。