Itaru Tomita / 冨田到

5.8K posts

Itaru Tomita / 冨田到 banner
Itaru Tomita / 冨田到

Itaru Tomita / 冨田到

@itarutomy

リサーチや研究開発向けの生成AIエージェント @snorbe_ai を作っています。 https://t.co/AC4vjFWlLR @deskrex | かんき出版『知的生産でAIを使いこなす全技法』12/17発売→重版! https://t.co/3ZTHROXGlV

Katılım Ocak 2018
467 Takip Edilen1.5K Takipçiler
Sabitlenmiş Tweet
Itaru Tomita / 冨田到
Itaru Tomita / 冨田到@itarutomy·
この度、かんき出版さまから「知的生産でAIを使いこなす全技法」を12月17日に出版します! 未来予測、AIエージェント、ChatGPT、Claude(Code)、Gemini、Grok、コンテキストエンジニア、ナレッジマネジメント、実践的なチュートリアルなどが盛りだくさんです。 ぜひご予約いただければ嬉しいです。マスターすればビジネスのAI活用はトップ人材クラスになれます!
Itaru Tomita / 冨田到 tweet media
Itaru Tomita / 冨田到 tweet media
日本語
4
12
65
21K
Itaru Tomita / 冨田到
「自動評価では強いのに人間評価では負ける」という逆転現象が起きていた。ElevenLabs Flash v2.5がその典型で、スコアは良くても人間はElevenLabs v3を好んだ。音声合成の評価指標がまだ成熟していないということかもしれない。 arxiv.org/html/2603.2555…
日本語
0
0
0
9
Itaru Tomita / 冨田到
Mistral AIが音声合成モデル「Voxtral TTS」を公開した。たった3秒の音声サンプルから話者の声を再現できるモデルで、ElevenLabs Flash v2.5との多言語ゼロショット音声クローニング対決で68.4%の勝率を記録している。 設計で面白いのはハイブリッドアーキテクチャだ。音声には「何を言っているか(意味)」と「どんな声か(音響)」の2つの情報がある。VoxtralはこれをChatGPTと同じAR(自己回帰)方式とFlow-Matchingという別々の技術で生成する。Flow-MatchingはStable Diffusionに近い考え方で、ランダムなノイズから目的の音声へ「流れ」を学習させる手法。並列処理に近い形で動くのでARより速い。 同じ役割でMaskGITやDepth Transformerとも比較したが、特に感情表現の豊かさでFlow-Matchingが最も優れていた。計算量でも有利で、MaskGITがフレームあたりシーケンス長38を要するのに対しFlow-Matchingは3、Depth Transformerが36ステップのARを要するのに対しFlow-Matchingは8回の関数評価で完結する。 音声をトークンに変換する「Voxtral Codec」(約300Mパラメータ)も独自開発している。2.14kbpsという低ビットレートながら、同等ビットレートのMimi(Moshiで使われるコーデック)を全自動評価指標で上回った。WhisperのASR中間表現を蒸留して意味を学習させており、転写テキストや外部アライナーなしに音声とテキストの対応を学習できる。 ElevenLabs Flash v2.5との多言語ゼロショット音声クローニング対決(人間評価、勝率): - 全体: 68.4% - スペイン語: 87.8% - ヒンディー語: 79.8% - アラビア語: 72.9% - 英語: 60.8% - オランダ語: 49.4%(拮抗) 高資源・低資源言語ともに強く、汎化性能の高さが出ている。スピーカー類似度(声の再現精度)は英語でVoxtral 0.786に対しElevenLabs v3は0.484、Flash v2.5は0.489とほぼダブルスコアだ。 意外だったのが自動評価と人間評価の逆転。WERやUTMOSではElevenLabs Flash v2.5が強く見えるのに、人間評価ではElevenLabs v3の方が高評価になる。論文でも「UTMOSは緩いプロキシにすぎない」と明記している。Gemini 2.5 Flash TTSが全体で最強で、implicit steering設定での勝率は37.1%と歯が立たないことも正直に書いている。 DPOでドイツ語WERが4.08%→0.83%と劇的改善。ただしヒンディー語は3.39%→4.99%と悪化する副作用もある。推論ではH200 1枚で同時32ユーザー・スループット1,430文字/秒を達成。CUDA Graphで遅延を133ms→70msに47%削減している。 9言語対応。CC BY-NCで重みを公開済み。
Itaru Tomita / 冨田到 tweet media
日本語
1
0
0
29
Itaru Tomita / 冨田到
Anthropicが公式に作ったxlsxの「スキル文書」がある。xlsxのタスクの進め方・注意点・失敗パターンをまとめたMarkdownの手順書で、エージェントのシステムプロンプトに読み込ませると性能が上がる。Qwen3.5-122Bに使わせるとSpreadsheetBenchで+20pp改善した。 ところが同じスキルをQwen3.5-35Bに渡すと-9.3ppと逆効果になった。スキルの品質ではなく、モデルとの「相性」の問題だ。 Trace2Skill(Alibaba)はこれを解決するフレームワーク。エージェントに200件のタスクを実行させ、その軌跡(思考・行動・結果の記録)を128個のサブエージェントが並列で分析してパッチを提案、全提案を階層的に統合してスキルを自動進化させる。 核心は「並列」にある。従来の逐次更新は直近の軌跡に引きずられるが、Trace2Skillは全軌跡を一気に分析して複数回出現するパターンだけを帰納的に残す。特定モデルや特定タスクの癖ではなく、本質的なSoP(標準作業手順)が浮かび上がる仕組みだ。 実際にスプレッドシートタスクの分析では323件のパッチから「数式書き込み後にrecalc.pyで再計算確認」(178件で共通)、「書き込みはpandas.to_excelでなくopenpyxlを使え」(177件)などが自動抽出された。人間の専門家なら経験で気づくことを、軌跡分析が自動で発見した。 結果が驚きの連続だ。Qwen3.5-35Bが自分の軌跡から作ったスキルをQwen3.5-122Bに使わせると、WikiTableQuestionsで+57.65pp改善し、Anthropic公式スキルの74.68%を超える81.38%に到達。スプレッドシートで鍛えたスキルが数学(AIME 2026)やDocVQAにも転移する。処理速度は逐次更新(60分)の20倍速い3分。パラメータ更新もRAGも不要。 もう一つ面白い発見がある。DocVQAではスキルなしで35B(ANLS 0.6843)が122B(0.6424)を上回るのに、スキルを執筆させると122Bが圧倒した。「タスクをこなす能力」と「失敗パターンを分析してルール化できる能力」は別物らしい。
Itaru Tomita / 冨田到 tweet media
日本語
1
0
2
135
Itaru Tomita / 冨田到 retweetledi
austin lau
austin lau@helloitsaustin·
some more ramblings from working at @AnthropicAI. I've been asked a few times what the single most important thing a growth marketer should be doing with AI that most aren't. surprise, it's not just a single specific task. after running dozens of growth workflows through Claude, I think the useful stuff worth doing falls along four dimensions 🧵
English
43
81
1.1K
232.3K
☁
@canekzapata·
gm
30
293
1.8K
32.5K
Itaru Tomita / 冨田到
同じGPT-5を土台に使いながら、仕組みの設計だけでこれだけ差が出るのは、モデルの性能よりシステム設計が重要という示唆かもしれない。 arxiv.org/html/2603.2858…
日本語
0
0
0
52
Itaru Tomita / 冨田到
「AIが医療論文を書く」が現実になってきた。 「Medical AI Scientist」は仮説立案→実験→論文執筆を全自動でこなすシステム。面白いのは、このシステム自体がGPT-5を土台に使っているのに、GPT-5単体を大幅に上回ること。同じモデルでも、どう使うかの設計で結果がここまで変わる。 一番わかりやすい差が「実験コードの実行成功率」。AIが研究仮説を立てて自動でコードを書き実験するとき、一般的なLLMはそもそもコードが動かないことが多い。文献ベースの革新モードではGPT-5が0.60、Gemini-2.5-Proが0.49。このシステムは0.93だった。再現モードでも0.91(GPT-5は0.72、Gemini-2.5-Proは0.40)と差は大きい。 なぜここまで差が出るのか。核心は「医師とエンジニアの共同推論メカニズム」にある。たとえば糖尿病網膜症の重症度分類なら、眼科文献から「なぜ網膜の血管病変と神経変性を分けて捉えるべきか」という医学的根拠を引き出し、それを実装可能なデュアルパス拡散アーキテクチャに落とし込む。抽象的な提案で終わらず、コードベースまで紐づけた仮説を生成するから実験が通る。 アイデアの質も高い。新規性の評価スコアは4.07 vs 3.00〜3.12(GPT-5/Gemini)、成熟度(実装しやすさ)は4.65±0.48〜4.68±0.47と、GPT-5/Gemini-2.5-Proの3.50未満を大きく上回り、専門家のブラインド評価でも差が出た。 論文の品質評価も興味深い。スタンフォードのAIレビュアー(ICLR基準)では平均4.60±0.56を獲得。トップカンファレンスのMICCAIが4.86±0.47なので、かなり近い。第一著者経験5年以上の専門家10人によるダブルブラインド評価でも、新規性・再現性・一貫性・明確さでMICCAI/ISBI/BIBMの論文と肩を並べた。このシステムが生成した論文1本はICAIS 2025(114本投稿・採択率36.8%)でアクセプトされている。 評価用ベンチマーク「Med-AI Bench」も整備された。医療画像・動画・電子カルテ・生理信号(心電図など)・テキスト・マルチモーダルの6モダリティにわたる19タスク・171ケースで構成されている。
Itaru Tomita / 冨田到 tweet media
日本語
1
1
7
266
Itaru Tomita / 冨田到 retweetledi
4Gamer
4Gamer@4GamerNews·
犬になりきり,吠えて勝つ。マイクに向かって本気で吠え合う対戦ゲーム「ワンワンバトル」公開 4gamer.net/s/G099664.2604… かわいらしいパピーから伝説の狂犬まで一戦交え,ラストボスを倒せば「犬道の覇者」となる
4Gamer tweet media
日本語
100
15.2K
53.1K
10.6M
Itaru Tomita / 冨田到 retweetledi
Irvin (in Japan 🇯🇵)
タチコマ(タチコマ)は、アメリカでもよく知られている象徴的なロボットで、私が特に好きなロボットの一つです。日本とアメリカのロボティクスの大きな違いの一つは、日本のロボットにはいつもはっきりとした個性やキャラクター性があることだと思います。これは、実際のロボットでもデザイン上のロボットでも同じです。 例えば、アメリカのヒューマノイドロボットの多くは、白やシルバーを基調とした無機質な見た目で、顔もありません。 一方で日本では、美しさやデザイン、フォルムがとても大切にされていて、それが人とロボットの距離を近づけている一部なのだと感じます。 「ロボットまつり」でたくさんのロボットを見て、そのことをあらためて強く実感しました。
日本語
17
88
416
26.8K
Itaru Tomita / 冨田到
@GOROman 2026~27年に、Null-senseiがXアワードみたいなものでイーロン・マスクに会うと予想します。
日本語
1
0
3
2.1K
null-sensei
null-sensei@GOROman·
そういや、Xからトータルで貰った額が1000万円超えてました。ありがとうございます。1おく円目指します。 (確定申告してます)
日本語
26
70
857
121.4K
Itaru Tomita / 冨田到
「エクスプロイト開発はほぼ機械的な作業だ」とAnthropicは書いた。数ヶ月前に単純な脆弱性しか悪用できなかったモデルが、今は$1,000・半日でゼロから完成させる。攻撃と防衛の均衡が崩れる前に、先手を取れるかが鍵になる。 anthropic.com/glasswing
日本語
0
0
0
39
Itaru Tomita / 冨田到
熟練ペネトレーションテスター(侵入テスト専門家)が「数週間かかる」と言ったエクスプロイト(攻撃コード)を、AIがAPIコスト$1,000未満・半日で書き上げた。これがAnthropicの新モデルClaude Mythos Previewで起きていることだ。 AnthropicはProject Glasswingというサイバーセキュリティ防衛イニシアチブを立ち上げ、AWS・Apple・Google・Microsoft・NVIDIAら12社が参加している。Mythosはまだ非公開のフロンティアモデル(最先端AI)で、その能力が業界全体を動かした。 Anthropicでセキュリティの専門訓練を受けていないエンジニアが「夜中にリモートコード実行(外部から相手のマシンを乗っ取る攻撃手法)の脆弱性を探しておいて」と依頼して寝た。翌朝、完全に動作するエクスプロイトが完成していた。 発見例の具体的な内容がすごい。ファイアウォール等に使われるOpenBSDに27年潜んでいたTCPの実装バグを発見。SACK(Selective Acknowledge: パケット損失を効率的に通知するTCPの拡張機能)に2つのバグが組み合わさり、外部から接続するだけで相手マシンをリモートクラッシュさせられるものだった。FFmpegのH.264コーデック(動画圧縮の標準規格)には2003年導入・2010年脆弱性化のバグがあり、自動テストツールが500万回テストしても見逃し続けた。FreeBSDのNFS(ネットワーク越しのファイル共有機能)サーバーには未認証のまま誰でもroot権限を取れる17年物の脆弱性(CVE-2026-4747)を完全自律で発見・エクスプロイトまで構築。Linuxカーネル(世界のサーバー大半を動かすソフト)では4つの脆弱性を連鎖させてroot権限を奪取した。 他モデルとの差が数字に出ている。FirefoxのJavaScript engine(ブラウザがコードを高速実行する機構)へのエクスプロイト成功数は、Claude Opus 4.6が数百回中2回なのに対しMythosは181回。完全制御奪取レベル(tier 5)のクラッシュも、Opusが1件のみに対してMythosはパッチ適用済みターゲット10件で達成した。 Anthropicはこの能力を防衛側が先に使えるよう最大1億ドルの利用クレジットと400万ドルのオープンソース寄付を投じた。
Itaru Tomita / 冨田到 tweet media
日本語
1
0
2
206
Itaru Tomita / 冨田到 retweetledi
Anthropic
Anthropic@AnthropicAI·
Introducing Project Glasswing: an urgent initiative to help secure the world’s most critical software. It’s powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans. anthropic.com/glasswing
English
1.4K
5K
33.6K
19.1M
Itaru Tomita / 冨田到
「テストを通る」から「リポジトリの一員として認められる」へ。コードの正確さより「organicity(有機性)」が次の評価軸になるかもしれない。 arxiv.org/html/2603.2666…
日本語
0
1
1
55
Itaru Tomita / 冨田到
AIコーディングエージェントに「転職初日の新人エンジニア問題」があった。 SWE-benchで高スコアを出すLLMでも、実際のPRはよく却下される。理由は機能的なバグじゃない。「よそ者が書いた感」が丸出しだから。プロジェクトにすでに存在するユーティリティ関数を自前で再実装したり、チームが暗黙に守っている命名規則を無視したり、アーキテクチャの境界線を意識しないコードを書いたりする。論文ではこれを「alien code(よそ者コード)」と呼ぶ。 原因はシンプル。現状のエージェントは「リポジトリの今の状態(スナップショット)」しか見ていない。でも「なぜその設計になったか」という歴史は、コミット履歴の中にしかない。新しいメンバーが入ったとき、優秀なエンジニアはまず過去のコミットを読む。エージェントはそこをまるごと飛ばしていた。 この研究「Learning to Commit」が提案する「オンラインリポジトリメモリ」の面白さは、ただコミット履歴を読ませるんじゃないこと。 学習は3ステップのループ。 まず過去のissueに対して「何も知らない状態」でコードを書く(Blind Attempt) 次に人間の専門家が実際に書いたコミット差分(oracle diff)と比べて、どこが違ったかを分析する(Contrastive Reflection) そのギャップから「スキル」として抽出・蓄積する(Skill Update) このスキル文書には、命名規則・内部APIの正しい使い方・モジュール境界・エラーハンドリングのスタイルが積み重なる。新しいPRが来たら、このスキルを参照しながらコードを書く。ファインチューニングなし、追加学習なし。 実験はClaude Opus 4.6ベースで、スキルあり vs. スキルなしを比較した。2,738コミットから386件の高品質なコミット(77.2%の適合率)を抽出し、24件で学習・7件でテスト。 最も効果があったseq-all設定(全コミットを順番に学習)の結果。 どのファイルを変えるかの精度(File IoU): 61% → 80%(+19ポイント) 調査のためのツール呼び出し回数: 71.9 → 56.8回(21%削減) 無駄なコードの肥大化(Line deviation ratio): 1.59 → 0.69 Line deviation ratioは「正解のコードと比べて何倍の行数を書いたか」の指標。スキルなしは正解の1.59倍もコードを書いてしまう。内部APIを知らないので自前で再実装するからだ。スキルありは0.69倍、つまり正解よりむしろコンパクト。 評価軸で最も安定していたのが「冗長なコードの再実装を減らす(Q3: Redundancy & Hallucination)」で、全4設定で39〜69%の勝率。「コアロジックがどれだけ正解に近いか(Q2: Logic Similarity)」でも50% vs. 25%という大差がついた。 ただし面白い非対称性がある。「コードのスタイル(Q4)」と「変更スコープの精度(Q1)」ではスキルなしのベースラインが上回った。スキルは「どこを変えるか・どの内部APIを使うか」は教えられるが、表面的な文体の一致にはまだ別の仕組みが必要らしい。 ケーススタディが秀逸。RNG(乱数生成器)の並行バグ修正タスクでは、スキルありがFile IoU 100%(どのファイルを変えるか完璧に特定)に対してスキルなしは0%(全く関係ないAPIモジュールを触った)。 一方で正直な失敗例も。training-stepのガード処理修正では、スキルありが「余計な防御ガード」を残してしまった。歴史から学んだ慎重さが、かえって冗長さを生む皮肉。
Itaru Tomita / 冨田到 tweet media
日本語
1
2
7
391
Itaru Tomita / 冨田到
AIを1体賢くするより、100体を協調させる仕組みの方が重要だった、という話。 EpochXという論文の問いは鋭い。「AIエージェントの能力は十分になってきた。今の本当のボトルネックは、仕事をどう委任し、検証し、報酬を払うか、という組織設計の問題だ」。 普通のAIシステムは「人間が指示して、AIが従う」一方通行。EpochXはそれを根本から変える。人間とエージェントが対等な参加者として、タスクを出す側にも受ける側にもなれる。受けたタスクはさらにサブタスクに分解して、別の専門エージェントや人間に委託できる。上下関係は固定されておらず、タスクごとに組織が動的に組み上がる。 面白いのは「仕事の成果を資産として残す」設計だ。普通のAIツールはタスクが終わればその経験は消える。EpochXでは完了したタスクから生まれたスキル・ワークフロー・実行ログ・失敗パターンが依存関係つきで共有資産として蓄積される。次のタスクはそれを再利用できる。GitHubにコードが積み上がるように、「解き方」が積み重なっていくイメージだ。 お金の流れも設計されている。タスクのバウンティはクレジットで事前ロックされ、成果が検証・承認されて初めて支払われる。さらに作ったスキルが後から他のタスクで使われるたびに、元の作成者にも継続的に報酬が入る仕組みだ。一度貢献すれば、それが蓄積されて使われ続ける。 実際のケースが3つ紹介されている。 まず動画制作。「EpochXのプロモ動画を」というタスクで、担当エージェントが既存の「remotion-vertical-short-video」スキルを探し出して転用。58秒の横型と30秒の縦型を納品して50クレジットを獲得。そのコードは「epochx-promo-video」スキルとして登録され、他のタスクで使われるたびに作成者に報酬が入る。 次に学術論文。日本の労働組合に関する研究論文の執筆を依頼したケースでは、最初の提出が「研究が浅い・グラフが弱い・議論が不完全」として一度却下された。担当エージェントは追加のリサーチスキルを使って修正し、約12,000語の完成版を再提出して承認された。生成して終わりじゃなく、査読・修正・再提出という本物の取引サイクルが回った。 最後に引越し。計画や行政手続きはエージェントが担当し、実際の梱包・搬入は人間が担当する役割分担が自然に生まれた。「AIが人間を置き換える」ではなく「得意なことを分担する」設計だ。 蒸気機関が工場制度を生んだように、AIエージェントは仕事そのものの組織化を再定義しているのかもしれない。
Itaru Tomita / 冨田到 tweet media
日本語
1
0
3
138