
k432
1.2K posts



\新機能リリース🚀/ AIレビュー機能をリリースしました! レビュー詳細画面で「AIレビュアー」をアサインすると、AIがコンテンツを読み取り、レビューコメント欄にフィードバックを記載します🤖💬 品質チェックの効率化にぜひご活用ください🙌 #utm_source=x&utm_medium=social&utm_campaign=ai-review-20260331" target="_blank" rel="nofollow noopener">blog.microcms.io/ai-review/#utm…





【GPT4.5から見るスケーリング則の終わり論について】 GPT4の10倍という触れ込みで登場したGPT4.5。めちゃ高い($150/M tokens)モデルだが正直性能は微妙である。ハルシネーション少ないとかアスキーアートが上手いという利点はあるものの、リアルなユースケースはあまり思いつかない。ベンチマークスコアを見てもイマイチ。GPT4から2年を経たメジャーバージョンアップであることを思うと、肩透かし感はある。 1)スケーリング則は終わったのか? 面白いなと思ったのは、GPT4.5が示唆するのは「スケーリング則の終わり」なのでは? という意見。とにかくデカいモデルを作っていけばAIの性能が上がり続けるんや! という経験則がスケーリング則。基本的にこの神話に沿ってたくさんの会社(ソフトバンクとか)が巨額の投資計画をぶち上げている。半導体でいうところのムーアの法則のAI版みたいなものである。 仮にこのスケーリング則が限界に到達しているのであればAGIは遠くなり、いろんな会社のいろんな計画が狂ってくる。非常にインパクトがデカい話になる。ベンチマークを見ているとあんまり上がっていないように見えるので(MMLUなど)、確かにその兆候だという見方もできるかもしれない。 ただ、個人的には「スケーリング則終了とは言えないのでは?」と思っている。理由は3つ A)ベンチマークの比較対象は他の最新のモデルではなくてGPT-4であるべきで、そこと比べると結構上がっている ・時々GPT-4.5とo3やGrok3、DeepSeek R1などを比較しているケースがあるが、まずこれは比較対象としては適切ではない。GPT4.5は事前学習モデルであり、ここから長考モデルに進化させることができる。 ・GPT4.5の適切な比較対象はGPT4であり、そこではまあまあ伸びているように思う ・一例をあげるとGPQAはGPT-3.5 Few Shotが26.0%、GPT-4 Few shotが39.3%、GPT-4.5 が71.4%でありGPT3.5->GPT4の伸びよりもGPT4->GPT4.5の伸びの方がでかかったりする B)(Aが間違っていたとしても)むしろ「ベンチマークで知性の高さを測れた時代の終わり」を示唆しているのではないか? ・Aを加味した上で、それでもGPT4とGPT4.5の伸びが微妙だよねという意見もある(安野的にはよくわからんけど見方によるとそうなのかもとも思う) ・ただ、飽和しているのはベンチマーク側の特性かもしれない。例えば古のベンチマークMNISTはいくら良いモデルが出ようがもう殆どスコアは上がらない。そもそも解きようがない難しい問題が残っていて、簡単な問題が解かれ尽くしている場合はベンチマークスコアは伸びない ・ベンチマークで測れないようなタイプの知性が存在し、それが実は上がっているという仮説もありうる。人間だって、ペーパーテストで測れる知性は知性全体のごく一部である。AIも同じなのかもしれない。実際OpenAIは「GPT4.5はEQがすごいんだ」と主張している C)(仮にA,Bが間違っていたとしても)OpenAIがしくじってるだけという可能性は否定できない ・OpenAIがどこかで何かを間違えていて、リソースを突っ込みまくったけど思うようにスコアが伸びなかった可能性はまだ残る。 結論、GPT-4.5ベースで強化学習した長考型モデルの性能がどれだけ出るのか? が重要。もし伸びなければ「デカさを追求してればいい時代は終わったね」となるし、伸びればまだスケーリング則が継続しているねとなる。これは数ヶ月待てばわかる話で今後が楽しみ。 2)なんで今OpenAIはGPT4.5を出したのか? 個人的にはなんでこのモデルを今公開したんや? というのが気になっている。実際微妙なので叩かれてもいるし将来に対する悲観論も出ている。 下記のような色々な仮説が出ているが腑に落ちないところも多い。 ・月末にインパクトのある発表をすることによってPro課金しているユーザーを手放さないようにしたい(OpenAI商売本気仮説) → その程度の売上が大きなインパクトを持つとは思えない ・DeepSeekなどが出てくる中で「いややっぱりデカいモデルがいいんだ、だから投資が必要なんだ」というムードを醸成しなおすため(市場はわかってくれる仮説)→だったらもう少し良い方法があったのではないかとも思う ・せっかく作ったのだからとりあえず出しておいた方がいいんじゃないか(記念公開説) ・OpenAIはそもそもOpenにAIを公開できるならしたい組織なんじゃないか(名は体を表す説) 安野の推し仮説はこれである。 ・研究者コミュニティに使ってもらって色々発見してもらうため(R&Dを加速するため)に公開した説 なんとなくベンチマークで測れない良さが上がっていそうなGPT4.5だが、だとすると「既存ベンチマークで測れなかったタイプの性能」を発見する必要がある。これはOpenAI社内でやるよりも世界中の研究者を巻き込みながらやらせた方がよい。 研究用途であれば$150/M tokenの高額も払える人たちがいるし、これによる成果はOpenAIとしても享受できるのでwin-winになる。自分たちの研究を加速するために売るというのは筋が通っている気がする。

