Keigo Hattori

16.4K posts

Keigo Hattori banner
Keigo Hattori

Keigo Hattori

@keigohtr

Head of Search and Discovery Engineering @mercari_jp / #MLOps enthusiast / state-of-mlops substack

神奈川 Katılım Aralık 2016
1.8K Takip Edilen3.6K Takipçiler
Sabitlenmiş Tweet
Keigo Hattori
Keigo Hattori@keigohtr·
[個人事業] 固定用です。 技術顧問や技術負債の解消を請け負っています。 詳細はこちらから。 blog.apitore.com/services
日本語
0
1
21
16.7K
Keigo Hattori
Keigo Hattori@keigohtr·
Metaより。Agentがインフラ(e.g. NVIDIA)に合わせてコードを最適化する。 KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure engineering.fb.com/2026/04/02/dev… AIインフラも多様化が進み、AMDやNVIDIAなどいろいろなチップが利用できるようになった。 Metaでは、KarnelEvolveによって、研究者が書いたアルゴリズムをどのチップで動かすと効率が良いかをAIが検証してくれる。
日本語
0
0
2
304
Keigo Hattori
Keigo Hattori@keigohtr·
ChatGPTでハッキング用の画像を生成し、実際にClaudeをハッキングする。 Breaking Opus 4.7 with ChatGPT (Hacking Claude's Memory) embracethered.com/blog/posts/202… 画像に悪意ある指示を埋め込むことで、Claudeの内部メモリにアクセスする手法。10回実験して5回成功しているので、成功率は高い。
日本語
0
0
1
234
Keigo Hattori
Keigo Hattori@keigohtr·
Notionより。2年にわたる Vector Search の最適化。10倍スケールさせつつ、コストは10%に。 Two years of vector search at Notion: 10x scale, 1/10th cost notion.com/blog/two-years… いろいろな試行錯誤をしていて良い。現在は Ray + Anyscale で運用している。
日本語
0
0
5
471
Keigo Hattori
Keigo Hattori@keigohtr·
OpenSearchより。3つの異なるマルチモーダルドキュメント検索のアプローチを評価。 Benchmarking multimodal document search in OpenSearch: Three approaches compared opensearch.org/blog/benchmark… "ColPali late interaction reranking" と "BDA modality-aware embedding" と "Text-only chunking" を比較。Searchの精度は "ColPali ..." が頭一つ抜けているが、推論時間も頭一つ抜けて遅い。Indexingについては "Text-only ..." が頭一つ抜けて遅い。
日本語
0
0
0
236
Keigo Hattori
Keigo Hattori@keigohtr·
Googleより。良い合成データの作り方。 Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles research.google/blog/designing… 良い品質の合成データを効率的に作る方法。従来は人間がチェックするなどして非効率な部分があった。提案手法では、"Global Diversification", "Local Diversification", "Complexification", そして "Quality Check" の4つのステージを設けている。 個人メモ ブログ読んだだけでは、これらがどれほど有効で他の企業とどこまで違うのかわからなかった。
日本語
0
27
302
18K
Keigo Hattori
Keigo Hattori@keigohtr·
Cometより。Agentに特化したデバッグおよび修正Agent。 Introducing Ollie: Auto-Fix Your Agent’s Codebase comet.com/site/blog/self… ざっと読む感じ、やっていることは普通。ログ等から原因を究明し、修正のコードとそれに関連するテストコードの追加を行う。
日本語
0
0
0
184
Keigo Hattori
Keigo Hattori@keigohtr·
Googleより。Towards developing future-ready skills with generative AI research.google/blog/towards-d… AIを使ってスキル開発。AIが学習者一緒にタスクをこなし、そのなかでの会話を通して、学習者の現在のスキルレベルを評価する。
日本語
0
0
5
175
Keigo Hattori
Keigo Hattori@keigohtr·
MirrorCode: Evidence that AI can already do some weeks-long coding tasks epoch.ai/blog/mirrorcod… AIはすでに人間なら数週間かかるようなコーディングタスクをこなせる。 gotreeのRust版実装のタスクを任せたが、Opus 4.6 なら実行できた。
日本語
0
0
0
259
Keigo Hattori
Keigo Hattori@keigohtr·
Anthropicより。Introducing routines in Claude Code claude.com/blog/introduci… Claude Code Webで設定できる自動化スクリプト。例えば「毎日2時にタスクボードからバグチケットをピックアップして、修正のPRを作っておいて」といったタスクをスケジュールできる。
日本語
0
0
1
396
Keigo Hattori
Keigo Hattori@keigohtr·
AI Assistance Reduces Persistence and Hurts Independent Performance ai-project-website.github.io/AI-assistance-… カーネギーメロン大学、オックスフォード大学、MIT、UCLAの共著。AIを使うと、人間は困難に対する粘り強さが低下し、個人としての能力も劣っていく。
日本語
0
0
0
343
Keigo Hattori
Keigo Hattori@keigohtr·
Amazonより。Simulate realistic users to evaluate multi-turn AI agents in Strands Evals aws.amazon.com/blogs/machine-… おもしろい。 AIで特定のペルソナを持つ人物のシミュレーターを作る話。このシミュレーターは、例えば「パリまでの飛行機を予約したい。予算はxxまで」というタスクにおいて、発注側をシミュレーションする。これにより、受注側のAIシステムの性能を評価できる。
日本語
1
0
0
254
Keigo Hattori
Keigo Hattori@keigohtr·
Anthropicより。Claude Managed Agents: get to production 10x faster claude.com/blog/claude-ma… フルマネージドなAgent環境が提供された。セキュリティとか気にしなくてよいというのはありがたい。事例の中に楽天が。
日本語
0
0
0
209
Keigo Hattori
Keigo Hattori@keigohtr·
さっそくprefillとdecodeの分離が出てきた。既知の課題だったのか。日々勉強。
日本語
0
0
0
101
Keigo Hattori
Keigo Hattori@keigohtr·
Googleより。Five techniques to reach the efficient frontier of LLM inference cloud.google.com/blog/topics/de… LLMの運用のノウハウ。 1. モデル階層間のセマンティック・ルーティング すべてのリクエストに最高性能の巨大モデルを使う必要はない。ゲートウェイに軽量な分類器を配置し、クエリの複雑さを分析し、適切なモデルをあてがう。 2. PrefillとDecodeの分離 これらを物理的に異なるGPUクラスターで実行する。 3. 量子化 モデルの重みの精度を落とすことで、メモリ使用量を削減し速度を上げる。 4. Speculative Decoding 「下書き」用の小さなモデルを使って、メインモデルの生成を加速させる。まず高速な小型モデルが数トークンを予測し、それを巨大な親モデルが「正しいか」を一括で検証。 5. コンテキストのキャッシュと再利用 同じプロンプトや長いコンテキスト(指示、規約、背景知識など)が繰り返し使われる場合、その計算結果を再利用する。
日本語
1
0
3
276
Keigo Hattori
Keigo Hattori@keigohtr·
KAI-Schedulerはこちら github.com/kai-scheduler/… Gang scheduling界隈の要求もどんどん複雑化していて、対応が大変そう。大量のGPUを使っているごく少数の企業には恩恵がありそうだが、ここまでやってどれほどのROIがあるのだろうか興味がある。
日本語
0
0
0
113
Keigo Hattori
Keigo Hattori@keigohtr·
NVIDIAより。Deploying Disaggregated LLM Inference Workloads on Kubernetes developer.nvidia.com/blog/deploying… LLMの推論を効率化するために、分離型推論というアーキテクチャへ移行するための技術と手法を解説。 分離型推論(Disaggregated Inference)とは LLMの推論プロセスを、計算特性の異なる2つのフェーズに分割して、それぞれ独立したサービスとしてデプロイする手法です。 - Prefillフェーズ: 入力プロンプトを一括処理する段階。Compute-boundであり、高いスループットが求められます。 - Decodeフェーズ: トークンを1つずつ生成する段階。Memory-bandwidth boundで、レイテンシが重要になります。 メリット: - 各フェーズに最適なGPUリソースを割り当てられる。 - フェーズごとに独立してスケーリングが可能になり、GPUの利用効率が向上する。 KAI-Schedulerの導入が前提。 k8s manifestに明示的にPrefillとDecodeを記載することで実現。
日本語
1
0
1
268