Bilzard

4.1K posts

Bilzard banner
Bilzard

Bilzard

@bilzrd

Japan Katılım Ocak 2010
199 Takip Edilen2.3K Takipçiler
Bilzard retweetledi
Simon Frieder
Simon Frieder@friederrrr·
Papers like these are important for people competing in big reasoning competitions like AIMO or ARC-AGI. The problem is that if one takes a closer look, there are some issues with the impressive claims: - MATH is an outdated benchmark by now - the numbers don't add up. The last sentence on page 1 states "Qwen-2.5-7B-Instruct improves from 76% to 95% while training just 10,000 parameters". This conflicts with table 2, which in turn is also unclear, as the parameter count doesn't seem to match with the # column.
Simon Frieder tweet mediaSimon Frieder tweet media
English
1
1
9
937
Bilzard retweetledi
今井翔太 / Shota Imai@えるエル
Gemini3, Nano Banana Pro登場で, 先月時点で私がTBSの以下番組で「OpenAIは危うい.Googleが勝つ」としてたのが注目(特に投資家層?)されてるようです 実際は公には以下記事で2024年OpenAI絶頂期からずっとGoogle有利とみてます 長い(私のX史上最長)ですが根拠, OpenAI vs Googleの展望を書いてみます 先月のTBS動画:youtu.be/oCVLb374gQ0?si… 2024年6月の記事:xtrend.nikkei.com/atcl/contents/… 参考のため、私がクローズドな投資家レクなどで使う資料で理解の助けになりそうなものも貼っておきます。 ※以下はどちらかというと非研究者向けなので、研究的には「当たり前では」と思われることや、ちょっと省略しすぎな点もあります。 まず、現在の生成AI開発に関して、性能向上の根本原理、研究者のドグマ的なものは以下の二つです。基本的には現在のAI開発はこの二つを押さえれば大体の理解ができると思います。両者とも出てきたのは約5年前ですが、細かい技術の発展はあれど、大部分はこの説に則って発展しています。 ①スケーリング則 arxiv.org/abs/2001.08361 ②SuttonのThe Bitter Lesson incompleteideas.net/IncIdeas/Bitte… ①のスケーリング則は2020年に出てきた説で、AIの性能は1)学習データの量、2)学習の計算量(=GPUの投入量)、3)AIのモデルサイズ(ニューラルネットワークのパラメータ数)でほぼ決まってしまうという説です。この3つを「同時に」上げ続けることが重要なのですが、1と3はある程度研究者の方で任意に決められる一方、2のGPUはほぼお金の問題になります。よって、スケーリング則以降のAI開発は基本的にお金を持っている機関が有利という考えが固まりました。現在のChatGPTなどを含む主要な生成AIは一つ作るのに、少なく見積もってもスカイツリーを一本立てるくらい(数百億)、実際には研究の試行錯誤も含めると普通に数千億から数兆かかるくらいのコストがかかりますが、これの大部分はGPUなどの計算リソース調達になります。 ②のThe Bitter Lessonは、研究というよりはRichard Suttonという研究者個人の考えなのですが、Suttonは現在のAI界の長老的な人物で、生成AI開発の主要技術(そして私の専門)でもある強化学習の事実上の祖かつ世界的な教科書(これは私達の翻訳書があるのでぜひ!)の執筆者、さらにわれわれの分野のノーベル賞に相当するチューリング賞の受賞者でもあるので、重みが違います。 これは端的にいうと、「歴史的に、AIの発展は、人間の細かい工夫よりも、ムーアの法則によって加速的に発展する計算機のハードの恩恵をフルに受けられるものの方がよい。つまりシンプルで汎用的なアルゴリズムを用い、計算機パワーに任せてAIを学習させた方が成功する。」ということを言っています。 ①と②をまとめると、とにかく現状のAIの性能改善には、GPUのような計算リソースを膨大に動員しなければならない。逆に言えばそれだけの割と単純なことで性能上昇はある程度約束されるフェーズでもある、ということになります。 これはやや議論を単純化しすぎている部分があり、実際には各研究機関とも細かいノウハウなどを積み重ねていたり、後述のようにスケーリングが行き詰まることもあるのですが、それでも昨今のAI発展の大半はこれで説明できます。最近一般のニュースでもよく耳にするようになった異常とも言えるインフラ投資とAIバブル、NVIDIAの天下、半導体関連の輸出制限などの政治的事象も、大元を辿ればこれらの説に辿り着くと思います。 以下、この二つの説を前提に話を進めます。 公にはともかく私が個人的に「OpenAIではなくGoogleが最終的には有利」と判断したのはかなり昔で、2023年の夏時点です。2023年6月に、研究者界隈ではかなり話題になった、OpenAIのGPT-4に関するリーク怪文書騒動がありました。まだGoogleが初代Geminiすら出してなかった時期です。(この時期から生成AIを追っている人であれば、GPT-4のアーキテクチャがMoEであることが初めて明らかになったアレ、と言えば伝わるかと思います) ChatGPTの登場からGPT-4と来てあれほどの性能(当時の感覚で言うと、ほぼ錬金術かオーパーツの類)を見せられた直後の数ヶ月は、さすがに生成AI開発に関する「OpenAIの秘伝のタレ説」を考えており、OpenAIの優位は揺らがないと考えていました。論文では公開されていない、既存研究から相当逸脱した特殊技術(=秘伝のタレ)がOpenAIにはあって、それが漏れない限りは他の機関がどれだけお金をかけようが、まず追いつくのは不可能だと思っていたのです。しかし、あのリーク文書の結論は、OpenAIに特別の技術があったわけではなく、あくまで既存技術の組み合わせとスケーリングでGPT-4は実現されており、特に秘伝のタレ的なものは存在しないというものでした。その後、2023年12月のGemini初代が微妙だったので、ちょっと揺らぐこともあったのですが、基本的には2023年から私の考えは「最終的にGoogleが勝つだろう」です。 つまり、「スケーリングに必要なお金を持っており、実際にそのAIスケーリングレースに参加する経営上の意思決定と、それを実行する研究者が存在する」という最重要の前提について、OpenAIとGoogleが両方とも同じであれば、勝負が着くのはそれ以外の要素が原因であり、Googleの方が多くの勝ちにつながる強みを持っているだろう、というのが私の見立てです。 次に、AI開発競争の性質についてです。 普通のITサービスは先行者有利なのですが、どうもAI開発競争については「先行者不利」となっている部分があります。先行者が頑張ってAIを開発しても、その優位性を保っている部分でAIから利益を得ることはほとんどの場合はできず、むしろ自分たちが発展させたAI技術により、後発事業者が追いついてきてユーザーが流出してしまうということがずっと起きているように思われます。 先ほどのスケーリング則により、最先端のAIというのはとても大きなニューラルネットワークの塊で、学習時のみならず、運用コストも膨大です。普通のITサービスは、一旦サービスが完成してしまえば、ユーザーが増えることによるコスト増加は大したことがないのですが、最先端の生成AIは単なる個別ユーザーの「ありがとうございます」「どういたしまして」というチャットですら、膨大な電力コストがかかる金食い虫です。3ドル払って1ドル稼ぐと揶揄されているように、基本的にはユーザーが増えれば増えるほど赤字です。「先端生成AIを開発し、純粋に生成AIを使ったプロダクトから利益を挙げ続ける」というのは、現状まず不可能です。仮に最先端のAIを提供している間に獲得したユーザーが固定ユーザーになってくれれば先行者有利の構図となり、その開発・運営コストも報われるのですが、現状の生成AIサービスを選ぶ基準は純粋に性能であるため、他の機関が性能で上回った瞬間に大きなユーザー流出が起きます。現状の生成AIサービスはSNSのように先行者のネットワーク効果が働かないため、常に膨大なコストをかけて性能向上レースをしなければユーザー維持ができません。しかも後発勢は、先行者が敷いた研究のレールに乗っかって低コストで追いつくことができます。 生成AI開発競争では以上の、 ・スケーリング則などの存在により、基本的には札束戦争 ・生成AIサービスは現状お金にならない ・生成AI開発の先行者有利は原則存在しない と言う大前提を理解しておくと、読み解きやすいかと思います。 (繰り返しですがこれは一般向けの説明で、実際に現場で開発している開発者は、このような文章では表現できないほどの努力をしています。) OpenAIが生成AI開発において(先週まで)リードを保っていた源泉となる強みは、とにかく以下に集約されると思います。 ・スケーリングの重要性に最初に気付き、自己回帰型LLMという単なる「言語の穴埋め問題がとても上手なニューラルネットワーク」(GPTのこと)に兆レベルの予算と、数年という(AI界隈の基準では)気が遠くなるような時間を全ベットするという狂気を先行してやり、ノウハウ、人材の貯金があった ・極めてストーリー作りや世論形成がうまく、「もうすぐ人のすべての知的活動ができるAGIが実現する。それを実現する技術を持っているのはOpenAIのみである」という雰囲気作りをして投資を呼び込んだ 前者については、スケーリングと生成AIという、リソース投下が正義であるという同じ技術土俵で戦うことになる以上、後発でも同レベルかそれ以上の予算をかけられる機関が他にいれば、基本的には時間経過とともにOpenAIと他の機関の差は縮みます。後者については、OpenAIがリードしている分には正当化されますが、一度別の組織に捲られると、特に投資家層に対するストーリーの維持が難しくなります。 一方のGoogleの強みは以下だと思います。 ・投資マネーに頼る必要なく、生成AI開発と応用アプリケーションの赤字があったとしても、別事業のキャッシュで相殺して半永久的に自走できる ・生成AIのインフラ(TPU、クラウド事業)からAI開発、AIを応用するアプリケーション、大量のユーザーまですべてのアセットがすでに揃っており、各段階から取れるデータを生かして生成AIの性能向上ができる他、生成AIという成果物から搾り取れる利益を最大化できる これらの強みは、生成AIのブーム以前から、AIとは関係なく存在する構造的なものであり、単に時間経過だけでは縮まらないものです。序盤はノウハウ不足でOpenAIに遅れをとることはあっても、これは単に経験の蓄積の大小なので、Googleの一流開発者であれば、あとは時間の問題かと思います。 (Googleの強みは他にももっとあるのですが、流石に長くなりすぎるので省略) まとめると、 生成AIの性能は、基本的にスケーリング則を背景にAI学習のリソース投下の量に依存するが、これは両者であまり差がつかない。OpenAIは先行者ではあったが、AI開発競争の性質上、先行者利益はほとんどない。OpenAIの強みは時間経過とともに薄れるものである一方、Googleの強みは時間経過で解消されないものである。OpenAIは自走できず、かつストーリーを維持しない限り、投資マネーを呼び込めないが、一度捲られるとそれは難しい。一方、GoogleはAIとは別事業のキャッシュで自走でき、OpenAIに一時的に負けても、長期戦でも問題がない。ということになります。 では、OpenAIの勝利条件があるとすれば、それは以下のようなものになると思います。 ・OpenAIが本当に先行してAGI開発に成功してしまう。このAGIにより、研究開発や肉体労働も含むすべての人間の活動を、人間を上回る生産性で代替できるようになる。このAGIであらゆる労働を行なって収益をあげ、かつそれ以降のAIの開発もAGIが担うことにより、AIがAIを開発するループに入り、他の研究機関が原理的に追いつけなくなる(OpenAIに関する基本的なストーリーはこれ) ・AGIとまではいかなくとも人間の研究力を上回るAIを開発して、研究開発の進捗が著しく他の機関を上回るようになる ・ネットワーク効果があり先行者有利の生成AIサービスを作り、そこから得られる収益から自走してAGI開発まで持っていく ・奇跡的な生成AIの省リソース化に成功し、現在の生成AIサービスからも収益が得られるようになる ・生成AI・スケーリング則、あるいは深層学習とは別パラダイムのAI技術レースに持ち込み技術を独占する(これは現在のAI研究の前提が崩れ去るので、OpenAI vs Googleどころの話ではない) ・Anthropicのように特定領域特化AIを作り、利用料金の高さを正当化できる価値を提供する 最近のOpenAIのSora SNSや、検索AI、ブラウザ開発などに、この辺の勝利条件を意識したものは表れているのですが、今のところ成功はしていないのではないかと思います。省リソース化に関しては、多分頑張ってはいてたまに性能ナーフがあるのはこれの一環かもしれないです。とはいえ、原則性能の高さレースをやっている時にこれをやるのはちょっと無理。最後のやつは、これをやった瞬間にAGIを作れる唯一のヒーローOpenAIの物語が崩れるのでできないと思います。 最後に今回のGemini3.0やNano Banana Pro(実際には二つは独立のモデルではなく、Nano Bananaの方はGemini3.0の画像出力機能のようですが)に関して研究上重要だったことは、事前学習のスケーリングがまだ有効であることが明らかになったことだと思います。 ここまでひたすらスケーリングを強調してきてアレですが、実際には2024年後半ごろから、データの枯渇によるスケーリングの停滞が指摘されていること、また今年前半に出たスケーリングの集大成で最大規模のモデルと思われるGPT-4.5が失敗したことで、単純なスケーリングは成り立たなくなったとされていました。その一方で、 去年9月に登場したOpenAIのo1やDeepSeekによって、学習が終わった後の推論時スケーリング(生成AIが考える時間を長くする、AIの思考過程を長く出力する)が主流となっていたのが最近です。 OpenAIはそれでもGPT-5開発中に事前学習スケーリングを頑張ろうとしたらしいのですが、結局どれだけリソースを投下しても性能が伸びないラインがあり、諦めたという報告があります。今回のGemini3.0に関しては、関係者の発言を見る限り、この事前学習のスケーリングがまだ有効であり、OpenAIが直面したスケーリングの限界を突破する方法を発見していることを示唆しています。 これはもしかしたら、単なるお金をかけたスケーリングを超えて、Googleの技術上の「秘伝のタレ」になる可能性もあり、上記で書いた以上の強みを今回Googleが手にした可能性もあると考えています。 本当はもっと技術的に細かいことも書きたいのですが、基本的な考えは以上となります。色々と書いたものの、基本的には両者が競争してもらうことが一番技術発展につながるとは思います!
YouTube video
YouTube
今井翔太 / Shota Imai@えるエル tweet media今井翔太 / Shota Imai@えるエル tweet media今井翔太 / Shota Imai@えるエル tweet media今井翔太 / Shota Imai@えるエル tweet media
日本語
25
517
3.2K
1.1M
Bilzard
Bilzard@bilzrd·
ベクトルを近づける、遠ざけると言った直感的なイメージは解釈性は高いけど、案に幾何学的な制約をモデルに課し、表現能力を奪っていることになる。対照学習やドキュメント検索のアプローチは見直しが必要になるかもしれない。
Bilzard@bilzrd

久々に面白い論文読んだ。 CLIPのように画像全体、テキスト全体の埋め込みを絡ませるやり方では論理的にリッチな構造を正しく学習できない、というのを数学的に示した論文。 例えば「白い犬と黒い猫」の画像と「白い猫と黒い犬」の画像を区別できなくなる。 arxiv.org/abs/2503.08723

日本語
0
5
101
16.6K
Bilzard
Bilzard@bilzrd·
何となくあってるが、ちゃんと読むと説明が不自然。 あと、シーンが予測できるのとロボットアームを正しく予測できることは全然違う。 そもそもモデルの外部にある環境とインタラクトしてないので世界モデルとは呼べないと思う。
Bilzard tweet mediaBilzard tweet mediaBilzard tweet media
日本語
0
0
3
608
Bilzard
Bilzard@bilzrd·
このアーキテクチャだとtext2image, image-to-text, image2imageモデルを統一のアーキテクチャで学習できる。 あと、流石に世界モデルと呼ぶのは誇張だが、紙芝居のシーンどうしの関係をモデル化したものを学習できる。
日本語
1
0
1
756
Bilzard
Bilzard@bilzrd·
最近のマルチモーダルモデルはインターリーブ(テキストと画像が紙芝居のように交互に並ぶ形式)の埋め込みをAR予測するアーキテクチャになっている。 推論時は拡散モデルに蒸留して画像の生成も高速化する。 arxiv.org/abs/2510.26583
Bilzard tweet mediaBilzard tweet media
日本語
1
8
62
4.5K
Bilzard
Bilzard@bilzrd·
今更だけどevaってどうなんだろう?CLIPのトークン埋め込みをMLM(論文ではMIM)して蒸留し、最大18BまでViTをスケールしたとのことだが、CLIPの学習に使われたデータが完璧に把握できてないなら普通にリークしてる可能性ないのかな? github.com/baaivision/EVA
日本語
0
0
6
1.1K
Bilzard
Bilzard@bilzrd·
一見「粒度細かくしたら性能上がった」というだけの話にも見えるが、集約時に情報損失がありそうなのと、最近のVQAモデルはCLIPタイプでなく、この論文のようにパッチ、トークンごとの埋め込みのクロスアテンションを計算する方式をとってるので、何かしら構造的な優位性があるのだろう。
日本語
0
1
17
2.5K
Bilzard
Bilzard@bilzrd·
CLIPのアプローチはベクトルの幾何学的な制約に引き摺られることが原因。 著者らは画像のパッチ、テキストのトークンごとの埋め込みを保持し、CNNに入力して画像的に処理することで部分的な関連を追加で学習させた(ColBERTのようなアプローチ)
日本語
1
1
18
3.8K
Bilzard
Bilzard@bilzrd·
久々に面白い論文読んだ。 CLIPのように画像全体、テキスト全体の埋め込みを絡ませるやり方では論理的にリッチな構造を正しく学習できない、というのを数学的に示した論文。 例えば「白い犬と黒い猫」の画像と「白い猫と黒い犬」の画像を区別できなくなる。 arxiv.org/abs/2503.08723
日本語
1
77
550
74.2K
Bilzard retweetledi
DailyPapers
DailyPapers@HuggingPapers·
NVIDIA just released Surgical Qwen2.5-VL on Hugging Face! This new multimodal LLM is fine-tuned to recognize surgical actions, instruments, and targets directly from endoscopic video frames. A huge step for surgical workflow analysis. huggingface.co/nvidia/Qwen2.5…
English
3
37
178
10.7K
Bilzard retweetledi
ころんびあ
ころんびあ@colum2131·
初めまして! uv(v0.9以降?)で、以下のように記載することで自分の環境であれば同様の問題は起きていません! 特に以下の設定で互換性のあるwheelが公開されていたらそれを使うようになり、buildがすぐ終わります! ``` [tool.uv.extra-build-variables] flash-attn = { FLASH_ATTENTION_SKIP_CUDA_BUILD = "TRUE" } ``` 環境や使いたいパッケージのバージョンに依存してしまうので一概には言えませんが、参考になれば幸いです🙏 #augmenting-build-dependencies" target="_blank" rel="nofollow noopener">docs.astral.sh/uv/concepts/pr… x.com/colum2131/stat…
日本語
1
6
35
3.2K
Bilzard
Bilzard@bilzrd·
暖房器具(GPU)が活躍する季節
日本語
0
0
8
907
Bilzard retweetledi
Ino.Ichi
Ino.Ichi@inoichan·
KaggleをMulti-agentで解くぞ論文。Playgroundとかの簡単なテーブルデータしか使ってないけど、ツヨツヨKaggler集めればガチコンペでも(部分的に)けっこう役立つAgent作れる気はする👀 AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions arxiv.org/abs/2410.20424
Ino.Ichi tweet media
日本語
1
21
153
15.9K
Bilzard
Bilzard@bilzrd·
Data augmentationガチ勢やん
Bilzard tweet media
日本語
1
1
33
3.7K
Bilzard
Bilzard@bilzrd·
直近のインフラ費用、GPUの料金よりクラウドストレージの料金の方が高かった。ホスティングは安いけど転送量の終了課金がバカにならなかった。
日本語
0
0
3
899
Bilzard
Bilzard@bilzrd·
本来の/tmpの用途からするとI/Oが遅いというのは悪い構成に思えるけど、dockerに疎いのでよく分からない。
日本語
0
0
1
677
Bilzard
Bilzard@bilzrd·
MAPの一位解法で触れられてたのでテストしてみたけど、Kaggle notebookのroot directory(/)は overlayでマウントされててI/O、特にwriteが不安定。キャッシュとして使うなら/kaggle/workingが最適らしい。 kaggle.com/code/tatamiken…
日本語
1
1
41
2.6K
Bilzard
Bilzard@bilzrd·
MAPの1位解法見たけど、技術の深い(低い)ところまで理解してるんだなという解法だった。 INT8用のGEMMに最適化されたforwardを自作して使ってるあたりカッコ良かった。
日本語
0
0
11
1.6K