Notionより。2年にわたる Vector Search の最適化。10倍スケールさせつつ、コストは10%に。
Two years of vector search at Notion: 10x scale, 1/10th cost
notion.com/blog/two-years…
いろいろな試行錯誤をしていて良い。現在は Ray + Anyscale で運用している。
Googleより。良い合成データの作り方。
Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles
research.google/blog/designing…
良い品質の合成データを効率的に作る方法。従来は人間がチェックするなどして非効率な部分があった。提案手法では、"Global Diversification", "Local Diversification", "Complexification", そして "Quality Check" の4つのステージを設けている。
個人メモ
ブログ読んだだけでは、これらがどれほど有効で他の企業とどこまで違うのかわからなかった。
Googleより。Towards developing future-ready skills with generative AI
research.google/blog/towards-d…
AIを使ってスキル開発。AIが学習者一緒にタスクをこなし、そのなかでの会話を通して、学習者の現在のスキルレベルを評価する。
MirrorCode: Evidence that AI can already do some weeks-long coding tasks
epoch.ai/blog/mirrorcod…
AIはすでに人間なら数週間かかるようなコーディングタスクをこなせる。
gotreeのRust版実装のタスクを任せたが、Opus 4.6 なら実行できた。
Anthropicより。Introducing routines in Claude Code
claude.com/blog/introduci…
Claude Code Webで設定できる自動化スクリプト。例えば「毎日2時にタスクボードからバグチケットをピックアップして、修正のPRを作っておいて」といったタスクをスケジュールできる。
AI Assistance Reduces Persistence and Hurts Independent Performance
ai-project-website.github.io/AI-assistance-…
カーネギーメロン大学、オックスフォード大学、MIT、UCLAの共著。AIを使うと、人間は困難に対する粘り強さが低下し、個人としての能力も劣っていく。
Amazonより。Simulate realistic users to evaluate multi-turn AI agents in Strands Evals
aws.amazon.com/blogs/machine-…
おもしろい。
AIで特定のペルソナを持つ人物のシミュレーターを作る話。このシミュレーターは、例えば「パリまでの飛行機を予約したい。予算はxxまで」というタスクにおいて、発注側をシミュレーションする。これにより、受注側のAIシステムの性能を評価できる。