ParquetとAIエージェントで無駄な出費を特定してみる // よ〜んの雑記

よ〜んです。

ParquetとかIcebergとか触ってみたいな〜とずっと思っていましたが、触れずに半年ぐらい経ってしまいました。

とはいえ

よほど大きなデータじゃないと旨みなさそう
（個人的な話）そもそも分析したいデータもない

とか言い訳つけて何となく手を付けていませんでした。

でも見返すと良さそうな数値データって、意外と普段の生活にもある気がします。

そう、家計簿(クレカの取引履歴)です。

ということで、本記事では家計簿をParquet形式で保存して、AIエージェントに分析させて見ようと思います。

(本題の前に)用語整理

ParquetとIceberg、S3 Tablesがごっちゃになっているので、整理します。

Apache Parquet
- 列指向のファイルフォーマット
Apache Iceberg
- 複数のParquetファイルをテーブルとして扱うための仕組み
Amazon S3 Tables
- Apache Icebergサポートがされている、大規模な表形式データを効率的に扱える
- 通常のS3と比べて最大10倍高速に処理が可能

なるほど、個人的にはsqliteと何が違うんだろとか思ってましたが、違いがわかってきました。

1ファイルでデータを持てて、スキーマ管理ができて、クエリも流せるという点ではsqliteと似ている部分もありますが、Parquetは扱えるデータ量のオーダーが全然違うそうです。

また、今回のような時系列の履歴データのように、大量のレコードを効率よく格納したい場合にも最適なフォーマットだと感じました。

早速実装していく

今回はこのようなアプリケーションを作っていきます。データ量的にオーバースペックな気がしますが、せっかくなのでCSVからParquetへの変換にGlueを使ってみます。

flowchart TB

subgraph Client["クライアント"]

Browser["ブラウザ"]

end

  

subgraph AWS["AWS Cloud"]

subgraph Frontend["frontend"]

CloudFront["CloudFront<br/>(HTTPS)"]

FrontendBucket["S3<br/>(Frontend Bucket)"]

end

  

subgraph Backend["backend"]

APIGW["API Gateway<br/>(/invocations)"]

Lambda["Lambda<br/>(Proxy)"]

AgentCore["AgentCore <br>Runtime"]

end

  

subgraph AI["Bedrock"]

Bedrock["Amazon Bedrock<br/>(Nova Pro)"]

end

  

subgraph Data

DataBucket["S3<br/>(Data Bucket)"]

Parquet["Parquet Files<br/>(transactions/)"]

end

end

  

Browser -->|"HTTPS"| CloudFront

CloudFront -->|"/*"| FrontendBucket

CloudFront -->|"/invocations"| APIGW

APIGW --> Lambda

Lambda -->|"InvokeAgentRuntime"| AgentCore

AgentCore -->|"InvokeModel"| Bedrock

AgentCore -->|"DuckDB Query"| DataBucket

DataBucket --- Parquet