Kafka への流入量の試算
AWS RDS の CDC を Kafka でストリーミングし Iceberg テーブルへ配信し分析基盤を構築しました。
その際に RDS のメトリクスから Kafka への流入量を試算するスクリプトを作成しましたので公開します。
SaaS への見積もりで流入量が必要だったので、スクリプトで試算した数値と合わせてスクリプトも提出した所、概ね問題ないことを確認いただけました。
AWS RDS の CDC を Kafka でストリーミングし Iceberg テーブルへ配信し分析基盤を構築しました。
その際に RDS のメトリクスから Kafka への流入量を試算するスクリプトを作成しましたので公開します。
SaaS への見積もりで流入量が必要だったので、スクリプトで試算した数値と合わせてスクリプトも提出した所、概ね問題ないことを確認いただけました。
AWS で複数のアカウントを管理している際、プロファイルの切り替えが面倒になることがあります。
今回は awsume
と peco
を組み合わせたインタラクティブな AWS プロファイル選択スクリプトを紹介します。
Confluent Cloud の料金体系について、SaaS版と AWS Marketplace版の比較を調べてみました。
※ 本記事は Claude Code で調べ得た内容を Obsidian にまとめさせブログ化してもらいました。初の試み💓
AWS ECS コンテナロギングをデータ分析観点からどの様な構成だと分析に都合が良いかの観点を記載します。
基本ログは追加のみで更新や削除はされない性質があるので、その点を考慮して登録されることを意識したアーキテクチャが望ましいです。
デフォルトではこのような構成がよく見受けられます。
RDS のテーブルデータを分析用テーブルにレプリケートする方法が多数あったのでその一覧をまとめます。
RDS をユーザ影響を極力低くすべく、分析用テーブルへレプリケートして、分析する方法が多々あったので私見ですが Pros/Cons をまとめます。
Glue Job で DB データを取得していた際に Glue Job Bookmark を利用していた際に問題があったので、その際の対応を備忘録として残しておきます。
Glue Job で DB やログ情報を取り込みしている場合、どこまで取り込んだかを記録する Bookmark 機能 があります。
DB データを毎回全てダンプするよりも差分のみ抽出(増分エクスポート: Incremental Export)でき、データの取り込み量も抑えられ、Glue Job の実行時間が短縮されます。
Glue Job は実行時間に対して従量課金されるのでコストも抑制できるメリットがあります。
sam build --use-container
でビルド実行した際に以下エラーが発生しました。
1 | Error: Docker is unreachable. Docker needs to be running to build inside a container. |
2024.05.22 より、ALB のアクセスログを Athena でクエリ実行してみると空の行が返るようになりました。
原因を調査してみるとどうやら ALB アクセスログに以下の項目が追加され、フォーマットが変更された為のようです。
テーブルを再作成することで事なきを得ました。
※ ALB はパーティションして利用しており、公式とはやや異なるテーブル定義にしています。
1 | CREATE EXTERNAL TABLE `<table name>`( |
以上
参考になれば幸いです。
備忘録です。
複数 AWS アカウントで起動中のリソース一覧作りたい時によく利用しています。
1 |
|