akira @ DataMarket 💹
4.1K posts

akira @ DataMarket 💹
@sista05
データエンジニア・アナリティクスエンジニア。 データオーケストレーションやデータモデリングなどを中心に、データエンジニアリングにまつわる様々な領域を仕事にしています。 2026年「データエンジニアの教科書」刊行予定。 お仕事の詳細は「さらに表示」参照
みなとみらい Katılım Şubat 2011
228 Takip Edilen635 Takipçiler

しかし、この使い方では従来のDBの課金モデルを壊します。
1インスタンス月額$5として、100万個で月500万ドル。莫大なコストがかかります。
ですが、ボトルネックはストレージだけではありません。
エージェントが作るDBの中身は小さく、
問題は100万個のメタデータを追跡・管理する負荷です。
そして、Ed Huangはこのような開発方法を成り立たせるのがTiDBだと主張しています。
TiDBは分散SQLデータベースで、物理DBを個別に立てるのではなく、
1つの共有インフラの上に論理テナントとして100万個を載せられる。
課金も従量制に変えたことで、初めてこの使い方のコストが成り立っています。
記事の結論は
「この開発方法が標準になるから、それに対応できるDBアーキテクチャが必要だ」
著者がTiDBの会社のCTOである以上、ポジショントークではあるでしょう。
ただ、エージェントが並列探索のためにDBを使い捨てるという使い方自体は
Manusの実データで裏付けられていて、これが標準になる可能性はあるかもしれません。
日本語
akira @ DataMarket 💹 retweetledi

ではどうしたらいいかというと、
記事では、データチームを解散して埋め込めと言っています。
データの専門家を独立した部門に置くのではなく、事業部門の中に埋め込む。
データに詳しい事業の人間として機能させる。
主専攻がデータ、副専攻が事業。ではなく、
主専攻が事業、副専攻がデータ。です。
ここで思い浮かぶのがデータチームのembeddedモデルですが、
embeddedモデルを採用すべき理由が巷間言われている理由とは異なります。
通常は、アナリストを事業部門の隣に座らせるだけ。役割は変わらない。
この記事は違います。
アナリストという役割自体をやめろ、と言っている。
事業の人間になって、たまたまデータも扱える人になれ。
だから「埋め込め」ではなく「解散して埋め込め」という主張です。
2024年の記事ですが、AIが全部解決すると言われた後でも大半のデータチームの状況は変わっていません。
日本語
akira @ DataMarket 💹 retweetledi
弊誌2026年5月号の第2特集は「モダンなデータ基盤」特集です。第1章では、初期のDWHの時代から現在までのデータ基盤の変遷を整理しています。これがなかなか良くて、ある時点のデータ基盤の知識しかない方が、最新のデータ基盤までの進化の経緯をキャッチアップするのにとても良い資料となっています。これまでのデータ基盤にはどういう課題があり、どのような技術で解決をはかり、どのように進化してきたのかがよくわかります。現時点の最新のデータ基盤アーキテクチャだけを解説すると、「なぜこんなに複雑なの?」という疑問を持つかもしれませんが、過去の経緯を知ったうえで解説を読むと、真意がわかります。
・第1章: データ基盤アーキテクチャの変遷と現在地
・第2章: モダンデータパイプライン構築の実践
・第3章: 運用を支える可観測性とデータの信頼性
・第4章: FinOpsによるコスト効率最適化




日本語

「あの数字出して」と業務部門がデータチームに依頼する。
翌日届く。便利。また頼む。隣の部門も頼む。
ある日、半年前に承認した予測モデルの進捗を聞いたら
「臨時の抽出依頼で手が回っていません」と返ってきた。
データチームを殺しているのは、悪意ではなくこの気軽さです。
この状況を変える方法として、
需要の定量評価、セルフサービスBI、データガバナンス。が挙がりますが現場では動きません。
これらを推進するには時間とリソースが必要で、
でもその時間は差し込みで埋まっている。
差し込みを減らすにはこれらの対策が必要。デッドロックです。
このデッドロックを解消する方法を中国のデータ技術コミュニティdbaplusの記事でうまく整理しています。
日本語



