Takeshi Fujiwara
8.6K posts

Takeshi Fujiwara
@urakarin
札幌在住某機械メーカーソフトウェアアーキテクト。 ファームウェアからクラウド、セキュリティまで技術全般なんでも屋さん。 経産省の工場システムセキュリティ対策ガイドライン作成に参加したり 北海道大学で特別講義をしたり、かつてはTapStreamを企画したり。でも一番長いキャリアは実は女子体操競技コーチ。



科学のお話 いままでのGemini /Grok / Claude /ChatGPTのような大規模言語モデル(LLM)の作動方式が少し効率化しそうな研究 清華大学と実はゲーム事業もあったりする中国版LINE的なWeChatで有名なテンセントの共同論文で ざっくり噛み砕くとAIが「次の一語」を予測する時代は、少し変わり始めている…やも? というもの 具体的には: 今のLLMの仕組み🔽 次の単語(トークン)を1つずつ超絶複雑な確率で選ぶ方式で文章などを出力 イメージ的にはタイプライターで1文字ずつ打つような感じ <今日> 🔽確率収束で次に来るのは「は」 by GPU <は> 🔽 今までの統計パターンだと…次に来る可能性がもっとも高いのは 「天気」!! (メガネ クイッ) by GPU <天気> みたいなイメージで、早く言ってしまえば メガネクイッなデータキャラ(LLM)です ここ1トークン毎の確率収束プロセスがものっそい複雑な上に計算コストが高く、長い文章の出力には遅いとか電気をやたら食う燃費の悪さという問題がありました 26年中に最早国家の経済システムのインフラに成りつつあるこのデータキャラの為に発電施設やデータセンターが不足し始めるといった事情も出てきています そこで 「今のLLMの処理が完成形じゃないよね、燃費悪いし」 的にテンセントと清華大学の研究チームが昨年の秋に発表した新手法 「CALM」 Continuous Autoregressive Language Models 連続ベクトル生成型言語モデル がメガネクイッのデータキャラ(従来のLLM)から少しだけ直感タイプの軍師キャラ(CALM)への換装方を提案していて面白いので紹介させてください CALMすごいじゃんポイント: ❶ まず、4つのトークン (例:「りんごを食べた」=りんご/を/食べ/た)を1つの「連続ベクトル」(数字の塊)にギュッと圧縮 ▶︎イメージ的には<りんごを食べた>の意味を1つの「思考の塊」にまとめる感じ ❷過去の思考の塊たちを見て、「その直後に来る思考の塊」(次の4トークン分)を予測 ▶︎今までの出力が「りんごを食べた」なら、CALMはこれを見て「後でゆっくり散歩しよう」と返す ▶︎従来の一単語毎に予想プロセスを入れるタイプライターから「アイデアの塊を順番に話す直感系軍師キャラ」に変わるイメージ 👨🔬開発者向けにもう少しロジックボックスを解体すると、CALMの予測動作は以下の通り: 従来LLM vs CALMの違い ▶︎従来のタイプライター方式(ChatGPT等データキャラ) <後で> 🔽GPUプロセス <ゆっくり> 🔽 GPUプロセス <「散歩> 🔽 GPUプロセス <しよう> 1トークンずつ4回も考えて打つ(遅い) ▶︎CALM方式(直感系軍師キャラ) 過去の思考の塊 <りんごを食べた> の1つだけを見てその直後に来る次の思考の塊を1回で予測 <後でゆっくり散歩しよう> と1つのアイデアの塊を1回で予測 (AE Decoderで一気に4トークンに展開) 予測回数は4分の1 ❸結果: 結果:文章生成のステップ数が4分の1に減り、 小さなモデルでは学習時の計算量を44%、推論時も34%削減(論文実測値) もっと平たくおさらいすると ▶︎LLM = 「1語ずつ次の言葉を考えて打つ」 ▶︎CALM = 「1つの考え(塊)ずつ次を考えて、塊を一気に4語に展開」 頭の中で「文の塊」で考えている人間の脳に近づいた感じです もちろんまだ「革命!」と言うには早い段階で 色々とスケーリング課題もあり ・実験はまだ1.8Bパラメータまでの小規模 ・新しい評価指標(BrierLM)を使っている ▶︎ここが一番の山: CALMは従来の標準スコア「困惑度/Perplexity」が完全に計算できない ; LLMで採用されてた(重い)softmax層が物理的にない為 研究チーム独自の「BrierLM」という新しい採点方法を作ったので、他の有名LLMと「同じテストで直接数字比較」しにくく、「本当に性能が良いのか」がまだ完全に客観的に証明しにくい状態です(論文自身が「Perplexity inapplicable」と明記 ・大規模モデルでの実証はこれから と、まぁ 前途は多難ですが、それでも! 意味の密度をスケールする新しい軸を提案した点は、非常に面白い一歩です 追記(実際に検証) GitHubに公開されている主要コード(AutoEncoderの圧縮部分とEnergy-Based Generative Head)を小規模で動かして確認 論文の数式通り「4トークンを1ベクトルにまとめる仕組み」は問題なく動作し、生成ステップが本当に4分の1になることや、再構成精度の原理が数値で再現できました(BrierLMやエネルギー損失の計算もコード通りで、改ざんや不整合は一切なし) 自分で開発してる会社で動いてるモデルに組み込んでみます 論文: arxiv.org/abs/2510.27688 公式GitHub(コード・学習済みモデル公開中): github.com/shaochenze/calm 「次の一語」予測が「次の一思想」予測になるのはかなり画期的です👍

お父さんの背中 続きあります

修復工事 続きあります
