akira @ DataMarket 💹

4.1K posts

akira @ DataMarket 💹 banner
akira @ DataMarket 💹

akira @ DataMarket 💹

@sista05

データエンジニア・アナリティクスエンジニア。 データオーケストレーションやデータモデリングなどを中心に、データエンジニアリングにまつわる様々な領域を仕事にしています。 2026年「データエンジニアの教科書」刊行予定。 お仕事の詳細は「さらに表示」参照

みなとみらい Katılım Şubat 2011
228 Takip Edilen635 Takipçiler
akira @ DataMarket 💹
しかし、この使い方では従来のDBの課金モデルを壊します。 1インスタンス月額$5として、100万個で月500万ドル。莫大なコストがかかります。 ですが、ボトルネックはストレージだけではありません。 エージェントが作るDBの中身は小さく、 問題は100万個のメタデータを追跡・管理する負荷です。 そして、Ed Huangはこのような開発方法を成り立たせるのがTiDBだと主張しています。 TiDBは分散SQLデータベースで、物理DBを個別に立てるのではなく、 1つの共有インフラの上に論理テナントとして100万個を載せられる。 課金も従量制に変えたことで、初めてこの使い方のコストが成り立っています。 記事の結論は 「この開発方法が標準になるから、それに対応できるDBアーキテクチャが必要だ」 著者がTiDBの会社のCTOである以上、ポジショントークではあるでしょう。 ただ、エージェントが並列探索のためにDBを使い捨てるという使い方自体は Manusの実データで裏付けられていて、これが標準になる可能性はあるかもしれません。
日本語
1
0
0
87
akira @ DataMarket 💹
AIエージェントが自分でDBを作り、クエリを実行し、終わったら捨てる。 Manusではこのようなやり方で3ヶ月で約100万個のDBが生成されましたが その間に人間は関与しませんでした。 90%超がエージェント起動、99%が使い捨て。 PingCAP CTOのEd Huangが、 AIエージェント基盤Manusの事例をもとに この変化をブログに書いています。
日本語
1
0
1
151
akira @ DataMarket 💹
ではどうしたらいいかというと、 記事では、データチームを解散して埋め込めと言っています。 データの専門家を独立した部門に置くのではなく、事業部門の中に埋め込む。 データに詳しい事業の人間として機能させる。 主専攻がデータ、副専攻が事業。ではなく、 主専攻が事業、副専攻がデータ。です。 ここで思い浮かぶのがデータチームのembeddedモデルですが、 embeddedモデルを採用すべき理由が巷間言われている理由とは異なります。 通常は、アナリストを事業部門の隣に座らせるだけ。役割は変わらない。 この記事は違います。 アナリストという役割自体をやめろ、と言っている。 事業の人間になって、たまたまデータも扱える人になれ。 だから「埋め込め」ではなく「解散して埋め込め」という主張です。 2024年の記事ですが、AIが全部解決すると言われた後でも大半のデータチームの状況は変わっていません。
日本語
1
1
2
199
akira @ DataMarket 💹
「アナリティクスチームはポンジスキームかもしれない」 データチームを作り、高い分析ツールも購入し、それを使って分析する人も採った。 それで何が変わりましたか? この問いに自信を持って答えられる経営者は少ないと思います。 Mode Analytics共同創業者のBenn Stancilが、 データ業界の人間として アナリティクスチームはポンジスキームかもしれない と、身も蓋もないことを言っています。
日本語
1
0
4
429
akira @ DataMarket 💹 retweetledi
SoftwareDesign
SoftwareDesign@gihyosd·
弊誌2026年5月号の第2特集は「モダンなデータ基盤」特集です。第1章では、初期のDWHの時代から現在までのデータ基盤の変遷を整理しています。これがなかなか良くて、ある時点のデータ基盤の知識しかない方が、最新のデータ基盤までの進化の経緯をキャッチアップするのにとても良い資料となっています。これまでのデータ基盤にはどういう課題があり、どのような技術で解決をはかり、どのように進化してきたのかがよくわかります。現時点の最新のデータ基盤アーキテクチャだけを解説すると、「なぜこんなに複雑なの?」という疑問を持つかもしれませんが、過去の経緯を知ったうえで解説を読むと、真意がわかります。 ・第1章: データ基盤アーキテクチャの変遷と現在地 ・第2章: モダンデータパイプライン構築の実践 ・第3章: 運用を支える可観測性とデータの信頼性 ・第4章: FinOpsによるコスト効率最適化
SoftwareDesign tweet mediaSoftwareDesign tweet mediaSoftwareDesign tweet mediaSoftwareDesign tweet media
日本語
0
25
170
15.5K
akira @ DataMarket 💹
この記事は中国発ですが、日本の現場も全く同じだと思います。 データチームが便利屋になっている会社は、 データ基盤にいくら投資しても戦略的な成果は出ません。 経営者側が知っておくべきことは1つです。 あなたの臨時依頼1件にいくらの工数がかかっているか。 それが見えた瞬間に行動が変わります。 可視化することで対策になる。というお話でした。
日本語
1
0
1
151
akira @ DataMarket 💹
「あの数字出して」と業務部門がデータチームに依頼する。 翌日届く。便利。また頼む。隣の部門も頼む。 ある日、半年前に承認した予測モデルの進捗を聞いたら 「臨時の抽出依頼で手が回っていません」と返ってきた。 データチームを殺しているのは、悪意ではなくこの気軽さです。 この状況を変える方法として、 需要の定量評価、セルフサービスBI、データガバナンス。が挙がりますが現場では動きません。 これらを推進するには時間とリソースが必要で、 でもその時間は差し込みで埋まっている。 差し込みを減らすにはこれらの対策が必要。デッドロックです。 このデッドロックを解消する方法を中国のデータ技術コミュニティdbaplusの記事でうまく整理しています。
日本語
1
0
3
352
akira @ DataMarket 💹
補足です。 データ要素流通とは中国固有の概念で、 企業のデータを生産要素として取引所で売買しようという政策です。 アメリカだとデータプロダクトが近い。 データを製品として扱い、品質やオーナーシップを定義して流通させる考え方。 データに資産価値を認めて流通させようという話を、 中国は政策主導、アメリカは市場主導でやっている。 ここの対比はかなり面白いので、ブログにでも別途ちゃんと書こうと思います。
日本語
0
0
3
468
akira @ DataMarket 💹
Hadoop、データ中台、全員アナリスト化、データは資産。 この10年で持ち上げられて沈んだビッグデータのバズワード、全部同じ構造で失敗してるとの記事。 中国のデータ技術コミュニティdbaplusに転載された数据猿の記事です。 記事は4つの失敗した概念を並べて、失敗パターンを構造化しています。そして今、同じ構造で新しい名前が登場していると指摘しています。 - Hadoop → レイクハウス/一体化データ基盤 - データ中台 → 工業スマートプラットフォーム - 全員アナリスト化 → Agent+BI - データアセット化 → データ要素流通
日本語
1
10
79
16.8K