parquet 解析ツール on macOS

iceberg テーブルの圧縮形式は snappy や gzip 等が選択できますが、
zstd が圧縮・伸縮効率がよくコストパフォーマンスに優れています。

ですが、
圧縮形式 zstd の parquet は s3 select 未サポート (2024.10.05 時点) なので、
parquet を解析したい場合、macOS ローカルにダウンロードし、解析するなりが必要です。

現時点 2025.10.03 では、 Iceberg format-versoin=3 では、 Athena からクエリ実行することもできません。

parquet-cli を利用しデータの内容を確認する必要があったので備忘録として残します。

parquet-cli 導入 & 簡易的な使い方

1
2
3
4
5
6
7
8
9
10
brew install parquet-cli

// スキーマ情報確認
parquet schema xxx.parquet

// 全データ表示
parquet cat xxx.parquet

// 最初の数件を表示
parquet head -n 10 xxx.parquet
Author

Kenzo Tanaka

Posted on

2025-10-03

Licensed under