Daisuke Okanohara / 岡野原 大輔

6.8K posts

Daisuke Okanohara / 岡野原 大輔

Daisuke Okanohara / 岡野原 大輔

@hillbig

Co-founder and CEO of Preferred Networks (PFN). CEO of Matlantis.

Japan Tokyo Katılım Ocak 2008
912 Takip Edilen38.3K Takipçiler
Sabitlenmiş Tweet
Daisuke Okanohara / 岡野原 大輔
I have just released "Part II of the Thermodynamic Theory of Learning series." It shows that the difficulty of continual learning and the emergence of catastrophic forgetting can be understood as a consequence of a “critical period closure,” in which the learning process itself gradually restricts future adaptability. In Part I, we formulated learning as an irreversible transport process occurring over finite time and demonstrated that there is a theoretical lower bound on the irreversible cost required to move from one state to another. We termed this bound the Epistemic Speed Limit (ESL), showing that finite-time learning inevitably incurs entropy production. Part II investigates how this irreversibility constrains future reachability. Learning can be described as a transport map over parameter distributions. Let Ψ_A denote the transport map corresponding to one stage of learning, and Ψ_B the subsequent stage. The overall learning process is then represented by the composition Ψ_B ∘ Ψ_A. The Jacobian of this transport map characterizes how infinitesimal perturbations in the current neighborhood of parameters are stretched or contracted as the learning dynamics evolve. When maps are composed, their Jacobians compose multiplicatively. Since matrix rank cannot increase under composition, and singular values obey submultiplicative bounds, collapsed directions are not generically restored by subsequent learning. This structure implies that as learning progresses, the “dynamically usable degrees of freedom”—that is, the reachable set—monotonically shrink. To continuously measure this contraction of the reachable set, we introduce the notion of effective rank. This quantity measures the log-volume of directions that can be reconfigured without degrading previously learned tasks, and thus represents the degrees of freedom that remain dynamically accessible under future learning. Importantly, effective rank may decrease even when task performance remains unchanged. In other words, future adaptability can be silently lost independently of current performance. Furthermore, we formalize the local curvature structure required by a new task in terms of the stable rank of the Hessian. We prove a capacity-threshold theorem: when this required curvature dimension exceeds the remaining effective rank, adaptation without forgetting becomes impossible. The key point is not that compatible multi-task solutions fail to exist. Rather, under finite-time non-equilibrium learning dynamics, even if compatible solutions exist in principle, they may become unreachable. From this perspective, the difficulty of continual learning arises not merely from information loss, but from the irreversible disappearance of reconfigurable directions. We refer to this phenomenon as critical period closure. As learning progresses and the reachable set contracts, a stage is eventually reached beyond which adapting to new tasks without disrupting existing structure becomes geometrically impossible. The term is inspired by its structural analogy to biological critical periods. This framework also provides a geometric explanation for why widely used continual learning methods—such as replay buffers and curriculum learning—can be effective. Replay can be interpreted as suppressing reachable-set contraction and mitigating directional collapse. Curriculum learning can be viewed as a strategy to control early-stage anisotropic contraction, thereby preventing premature loss of effective degrees of freedom. At the same time, because submultiplicative contraction under map composition is fundamentally unavoidable, these methods cannot eliminate irreversibility entirely; they can only delay critical period closure. This work does not propose a new algorithm but rather analyzes structural constraints inherent in learning dynamics. We hope that this framework will serve as a theoretical foundation for future design principles in continual learning and for reconsidering update rules from a dynamical perspective.
English
1
7
42
27.1K
Daisuke Okanohara / 岡野原 大輔
At IMEC ITF WORLD 2026, I'll be giving a presentation titled "Chips for AI, AI for Chips." I'll discuss how next-generation AI must overcome the memory wall and the materials wall—and how MN-Core and Matlantis tackle them. Feel free to say hello if you're attending!
English
1
0
10
3.7K
Daisuke Okanohara / 岡野原 大輔
Transformerの中でも計算が大きい、FFN内部のニューロン活性をL1正則化も組み合わせ疎にし、GPUカーネル上の実装最適化も行うことで、高速化、省メモリ化につなげる手法が提案されている。 Transformerは大きく、注意機構と、FFNから構成され、計算量の大部分をFFNが占める。最近はFFNをMoE化する例が増えている。 多くのFFNはgated FFNを採用している。これは入力からゲート出力と線形変換を計算した後要素ごとの積をとることで中間表現を得る。 この研究では疎にするために、ゲート側の活性関数として、従来使われる滑らかなSiLUやSwiGLUではなく、ReLUを使うことで多くの成分が自然に0になるようにする さらに学習時にFFN活性値に対してL1正則化を加える。これによりなるべく少数のニューロンを使って予測するように圧力をかける。 こうしたことで99%以上の活性値を0にできながら下流タスク性能劣化をほとんどおさえられる。 しかし現在のGPUは密な行列演算に最適化されており、疎な表現しても活用できない。そこでTile-wise ELLPACKというスパース形式、列方向のタイルごとに非ゼロ要素を詰めた表現を使い、gate projectionの計算と同じカーネル内で計算するようにする。 さらに推論時にはまずgate活性を計算し、非ゼロ要素をTwELL形式で保存。非ゼロニューロンのみ、up projectionとdown projectionを計算するようにする。 学習全体は20%の高速化が達成され、推論でも最大30%程度の高速化が達成される コメント === MoEはエキスパート単位で疎にするのにし、本研究ではFFNニューロン単位でスパースにする。非構造化スパースは実行効率をあげることが簡単ではないが、今回カーネル最適化も含め学習と推論で20~30%の高速化が達成された。 (なお、本研究自体はFFN一般に使える手法なのでMoE内部のFFNに使うことも可能)。 一方、99%も疎にできているのに全体の高速化率が20%に留まっている(これでもすごいが)というようにメモリアクセスへの特性上、密な計算が得意な最近のHWに対して、非構造の疎化をどのように活かしていくかは大きな課題である。 完全な非構造化じゃなく、なんらかのブロック化を導入(これをすすめると結局MoEに近づいていってしまうが)したり、よく使われるニューロンにつながる重みだけを高速なメモリ上においておき、必要なニューロンをメモリ階層として呼び出すなど、システム全体の最適化なども考えていく必要がでてくる。
日本語
1
25
196
26.4K
Daisuke Okanohara / 岡野原 大輔
球面上で、言語のような離散データを連続的に生成する手法が注目されている。 具体的には、各トークンに対応する埋め込みベクトルを長さ1に正規化し、高次元球面S^{d-1}S上の点として配置する。 そのうえでノイズを加え、拡散過程を定義する必要がある。しかし、球面上ではベクトルの長さを保つ必要があるため、ノイズは「位置のずれ」ではなく、「方向のずれ」、すなわち方向の不確かさとして表される。 これを自然に実現するのが、von Mises-Fisher分布である。vMF分布は、球面上の正規分布のようなものであり、一様ノイズから平均方向の周辺へ集中していく過程を表せる。 単位球面上において、ある方向wの周りに点が集まる分布は、次のように表される。 p(x∣w,κ)∝exp⁡(κ) ここで、xxx は球面上の点、www は正解トークンの埋め込み方向である。また、は内積だが、両方が単位ベクトルなのでコサイン類似度に等しい。 κは集中度を表す。 κが大きいほど分布はwの近くに集中し、κ=0のときは球面上一様分布となる。 このように、vMF分布では内積だけで確率が決まる。つまり、正解トークンと現在の点がどれだけ近い方向を向いているかによって確率が決まるため、言語埋め込みの幾何と相性がよい。一方、one-hotベクトルにガウスノイズを足す場合、すべてのトークン間距離が等しくなりやすく、トークン間の意味的な近さを反映しにくい。 モデルは、現在の球面上の点xを入力として、各トークンに対する予測分布を出力する。言い換えれば、「この点はどのトークン埋め込みから来たものか」を予測する。この事後分布を使って、生成時に球面上の点をどの方向へ動かすかを決める。 このとき速度場が必要になるが、vMF pathでは条件付き速度を球面上の連続方程式から導くことができる。さらに、vMF分布の回転対称性を利用することで、この問題をコサイン類似度に関する1次元ODEへ帰着できる。 加えて、スコア、すなわち対数尤度の勾配も閉じた形で求めることができる。そのため、通常のODEサンプリングだけでなく、スコアを使ったpredictor-correctorサンプリングも可能になる。 サンプリング時には、モデルが出力する各トークンへの予測確率を重みとして使う。具体的には、現在の点から各トークン埋め込み方向へ向かう接ベクトルを計算し、それらを予測確率で重み付き平均する。その平均方向へ球面上を少しずつ進むことで、ノイズからトークン埋め込みへ近づけていく。 コメント === 球面上の拡散モデルは、まだ基礎研究寄りの段階であり、今すぐLLMを置き換えられる技術ではない。しかし、離散生成を連続幾何で扱うための有力な設計原理である。 特に今回のvMF定式化では、ノイズ過程がコサイン類似度と自然に結びつき、さらにスコアも直接求められるのは興味深い。
日本語
1
32
208
22.6K
Daisuke Okanohara / 岡野原 大輔
Token-Superposition Training は、LLM の大規模事前学習を効率化する手法である。 第一段階では、連続する複数トークンをまとめて一つの bag とし、それらの埋め込みを平均して一つの入力表現にする。出力側では、次の1トークンを当てるのではなく、次の bag に含まれる複数トークンを multi-hot cross entropy で予測する。つまり、順序情報を落とした「次の複数トークン集合」を予測する。 第二段階では、通常の自己回帰的な next-token prediction に戻し、復元学習を行う。 この方法により、学習時の tokens-per-FLOP を大幅に改善できる。 論文では、3B dense モデルで約2倍、10B-A1B MoE モデルで約2.5倍の高速化を達成したと主張している。代表的な設定では、3B モデルでは6トークンを平均化し、10B-A1B MoE モデルでは16トークンを平均化している。 下流評価では改善するタスクもある一方で、すべてのタスクで一様に改善しているわけではない。また、大規模実験での再現性や汎用性の検証は今後の課題である。 コメント === 複数トークンを予測する MTP、future summary prediction、SuperBPE、byte/subword モデル、coarse-to-fine pretraining などの要素を組み合わせた手法といえる。入力側を粗くするのと同時に、出力側でも複数トークンを予測している点が特徴である。 トークナイザを変更する必要がないため、実運用に乗せやすい魅力がある。アイデアは非常に単純だが、実験結果は強く、LLM 事前学習の効率化手法として有望である
日本語
1
6
72
7.6K
Daisuke Okanohara / 岡野原 大輔
画像生成で使われる潜在拡散モデルでは、画像をVAEで潜在空間に圧縮してから、DiTなどの拡散モデルで生成を行う。 通常よく使われる空間圧縮率はf8、つまり縦横をそれぞれ1/8にする設定だが、Qwen-Image-VAE 2.0ではf16やf32まで圧縮率を高めている。 ただし、圧縮率を高めると、文字や細線などの細部が失われやすくなる。そこで、以下の工夫を導入している。 - 潜在チャネル数を増やし、空間方向の圧縮による情報量の低下を補う - Global Skip Connectionにより細部を保存する。具体的には、入力画像の空間情報をspace-to-channelで折りたたみ、潜在表現側に直接流す - DINOv2の中間特徴に潜在表現をアラインさせ、拡散モデルが学習しやすい潜在空間にする - 文字が潰れやすい問題に対処するため、文字リッチな実データと合成レンダリングデータを使って訓練する
日本語
1
23
136
16.9K
Daisuke Okanohara / 岡野原 大輔
大規模言語モデルの学習では、Muonと呼ばれる最適化手法が注目されている。Muonは、通常の勾配降下とは異なり、各重み行列の勾配を行列として扱い、そのスペクトル構造を変換してから更新に使う。 Muonは勾配行列の方向ごとの強さを揃えるため、特異値を1に揃えてから適応する。そのためMuonの成功は、しばしば勾配スペクトルを白色化し、適切な非ユークリッド幾何に沿って最急降下しているからと説明されてきた。 今回の論文では、この説明に疑問を投げかけ、厳密な白色化や幾何構造ではなく、もっと粗いスペクトル操作とステップサイズの安定化ではないか、というのである。 例えば、Freonという変種を考え、通常の勾配降下から、Muon、さらに擬似逆行列に近いもので表せるものを作る。この場合、あるノルムに対する正しい最急降下として表せない範囲が最適なことがみられる。 さらに特異値をランダム化したKaonも実験ではMuonにかなり近い性能を示す。 これらの結果から、もしMuonの本質が特定のノルム幾何に厳密に従うことではなく、元の勾配スペクトルを破壊し、過大な特異値を抑え、更新スケールを安定化することにあるのではないかと示唆される。 さらに、バッチ勾配と真の勾配の整合性と、方向ごとの降下可能性をみた場合、通常の勾配方向は、一見すると最も自然に見えるが、ミニバッチ勾配にはノイズがあり、また曲率の高い方向に強く引っ張られることもある。その方向にそのまま進むと、ステップサイズを小さくせざるを得ない。 一方、MuonやFreon、Kaonのようなスペクトル変換は、勾配との単純な整合性を少し犠牲にするが、より低曲率で、大きなステップを踏みやすい方向を作る。 この観点では、Muonの本質は正しい幾何ではなく、学習率を合わせやすい更新方向を作っている可能性がある ただし、実験の中心はGPT-2規模やNanoGPT、WikiText-2であり、大規模事前学習で同じ結論が成り立つかは要検証
日本語
2
25
189
16.4K
Daisuke Okanohara / 岡野原 大輔
LLMの事後学習では、オンポリシー蒸留(OPD)が有力な手法として使われている。OPDでは、生徒モデル自身が生成した出力に対して、より強い教師モデルのトークンごとの確率分布を参照し、生徒モデルを教師モデルに近づける。 しかしOPDには、学習中に強い教師モデルを常時サーブし続けなければならないという大きな問題がある。さらに、学習中の生徒モデルによるロールアウトも毎回行う必要がある。Lightning OPDは、この問題を解決する手法である。 まず、教師モデルが生成したデータでベースモデルをSFTし、参照モデルを作る。次に、この参照モデルを使って応答を一度だけ生成し、その応答に対する教師モデルのトークンごとの対数確率を事前計算して保存しておく。学習時には、参照モデルによる固定応答上で、保存済みの教師モデルの対数確率と、現在学習中の生徒モデルの対数確率との差をアドバンテージとして用い、生徒モデルを更新する。 従来、適当なモデルを使ってロールアウトデータを作ると、ロールアウト分布と、OPDで参照する教師が一致しない。本論文では、この不一致が勾配バイアスを生み、性能低下につながることを示している。これに対し、Lightning OPDではSFT教師とOPD教師を一致させることで、教師整合性を保つ。 実験では、4Bおよび8Bモデルの設定において、数学・コーディングタスクで標準OPDと同等、またはそれを上回る性能を達成している。また、計算コストについても、約4倍の効率化を実現している。 コメント === OPDは強力だが、実現にはかなり大きな計算・インフラ上の負担がある。Lightning OPDは、教師モデルの常時サービングと学習中の生徒ロールアウトを不要にすることで、OPDをかなり現実的に実行できる形にしている。 また、この手法におけるSFT段階は、広い意味でmid-trainingに近い役割を持っている。mid-trainingは、ベースモデルをいきなり最終タスクに向けて最適化するのではなく、目的に近い中間分布へ一度移動させる段階である。 Lightning OPDにおけるSFTも、後続のOPDが有効に働くように参照モデルの分布を整える段階であり、OPDのための分布整形とみなすことができる。
日本語
2
9
107
10.2K
Daisuke Okanohara / 岡野原 大輔
Cola(Continuous Latent Diffusion Language Model)は、文章生成を二段階に分ける階層潜在変数モデルである。第一段階では、文章のグローバルな意味構造を連続潜在表現として生成し、第二段階では、その潜在表現に条件づけてテキストを生成する。 具体的には、Text VAEによってテキストと潜在表現の間の変換を学習し、DiT / Flow Matchingによって潜在表現上の生成過程、すなわち latent prior を学習する。 Colaの特徴は、単に固定された潜在空間上で生成するのではなく、テキストを適切な潜在空間に写し込む部分も含めて学習している点にある。実験では、約2Bパラメータ規模でARモデルや既存の拡散言語モデルと比較し、スケーリング曲線としては有望な結果を示している。一方で、絶対性能ではまだARや既存の強力な拡散モデルに比べて低い部分もある。 コメント === 直前で紹介したELFは、固定された埋め込み空間を用いるため設計が単純であり、小規模な実験でも既存手法と同等、あるいはそれを上回る性能を示している。その意味で、現時点では実証的に強い印象がある。 一方で、長期的な可能性という点では、Colaの方がより大きな構想を持っている。長期的な研究方向としてはColaの問題設定も非常に重要である。 文章生成をグローバルな意味構造の生成とローカルなテキスト実現に分解することで、ARとは異なるスケーリング経路を示せる可能性がある。理論的にも興味深く、さらに画像・動画・音声といった連続モダリティとの統合にも自然につながる設計だと考えられる。
日本語
1
6
64
7.2K
Daisuke Okanohara / 岡野原 大輔
Embedded Language Flows(ELF)は、連続空間上で言語を生成する拡散型言語モデルである。マスクされたトークン列を少しずつ埋める離散拡散モデルとは異なり、画像生成などで発展してきた連続拡散モデルやFlow Matchingの技術を比較的そのまま利用できる点に特徴がある。 ELFではまず、目標となるトークン列をT5 encoderに通し、各トークン位置に対応する連続ベクトル列に変換する。このとき得られるのは、単なる単語埋め込みではなく、周囲の文脈を考慮した文脈的埋め込みである。 ELFは、この文脈的埋め込み空間を生成対象とする。学習時には、正解文から得られた埋め込み列にノイズを加え、モデルがそれを元の埋め込み列へデノイジングできるように学習する。 同時に、生成された埋め込みをトークンに戻すためのunembedding層も学習する。これは、各位置の埋め込みから語彙全体に対するlogitsを出す層である。ELFでは、デノイジングを行うネットワークと最終的なデコードを行うネットワークが重みを共有しており、最後のステップだけ、unembedding層を通してトークン列を生成する。 この設計により、T5 encoderが必要なのは学習時のみであり、推論時にはGaussian noiseからELF自身が埋め込み列を生成し、最後にunembedding層を通してトークン列を得ることができる。 論文では、encoderや埋め込み表現の選択についてもablationが行われている。T5 encoderを用いた文脈的埋め込みが最も良い結果を示しており、単語ごとの埋め込みや学習可能な埋め込み層を使う場合よりも性能が高い。また、scratchで学習したencoderも試されているが、事前学習済みT5 encoderには及ばない。これは、生成対象となる埋め込み空間が学習中に動いてしまうと、モデルが追いかけるべき目標分布が不安定になるためだと考えられる。ただし、大規模化や学習方法の工夫によって、この傾向が変わる可能性はある。 実験では、105Mパラメータ程度のモデルによる無条件生成において、既存の離散・連続DLMであるMDLM、Duo、FLM、LangFlowを上回る結果が示されている。さらに、既存手法が500Bトークン以上で訓練されているのに対し、ELFは45Bトークン程度で済んでいるとされる。 また、ELFは条件付き生成にも自然に拡張できる。機械翻訳や要約の実験では、同規模の自己回帰モデルや既存DLMを上回る結果が報告されている。 コメント === 連続表現上の拡散モデルで生成し、最後に離散化するというアイデア自体は古くから存在する。たとえばAnalog Bits(2022)は、トークンをbit列に変換し、そのbit表現を連続空間上で復元することで離散データを生成していた。 ELFも同じく、離散データを連続空間で扱い、最後に離散化するという考え方に基づいている。ただし、Analog Bitsがbit表現を用いたのに対し、ELFはすでに意味構造がある程度ほどけた文脈的埋め込み空間を用いている。この点が、言語生成との相性の良さにつながっていると考えられる。 さらに、埋め込み空間として事前学習済みモデルであるT5 encoderを使ったことにより、学習目標となる連続空間が固定され、学習が安定したと考えられる。良い学習目標を用意することと、その目標に向けて生成モデルを学習することを分離する設計は、他の分野でもよく見られる。 一方で、今後は工夫によって、フルスクラッチで埋め込み空間そのものの学習と、その埋め込み空間に向けたデノイジングの学習を同時に行う方向も進むだろう。 さらに、そうなってくると生成対象は必ずしも固定されたトークン列である必要はない。Byte Latent Transformerのように、byte列や可変長の潜在表現を目標にすることも考えられる。
日本語
2
16
83
10.4K
Daisuke Okanohara / 岡野原 大輔
自然に画像を生成できるAIは、すでに視覚世界を理解しているのではないか。つまり、物体、奥行き、空間構造、そしてどこに何が存在するかといった情報を、内部的に獲得しているのではないかと考えられてきた。 今回、強力な画像生成モデルである Nano Banana Pro を視覚理解タスク向けに指示チューニングすることで、専用モデルに匹敵、あるいはそれを上回る性能を達成できることが示された。セグメンテーションでは SAM 3 を上回る性能を達成し、深度推定では Depth Anything 3を上回る性能を達成している。 これは、自然言語処理において、LLM の登場により、翻訳、要約、質問応答、推論などのタスクが、すべて生成モデルの適応として統一的に扱われるようになったのと同じ現象が、画像処理においても起き始めたといえる。予想されていた流れではあるが、それが実際に成立し始めた重要なタイミングだといえる。 本研究では、Nano Banana Pro に対して少量の画像タスクデータで指示チューニングを行い、画像認識・視覚理解タスクを解かせている。この際、視覚タスクの出力をすべて RGB 画像に変換し、各タスクを画像生成問題に帰着させる。 例えば、セグメンテーションタスクでは、「これはセグメンテーション画像です。ピンクの服を着た人は白に、他の人は緑に塗ってください」というように指示を与え、セグメンテーション結果を得る。 インスタンスセグメンテーションタスクでは、例えば「それぞれのクロワッサンを別々の単色で塗ってください」と指示し、生成後に色ごとにクラスタリングすることで、個々のインスタンスを取り出す。 深度推定の場合は、深度情報を RGB 色空間上の色に対応させる。具体的には、深度値を近くの解像度をあげるよう変換したうえで、RGB 立方体上の経路に沿って色へ対応づけ、モデルにはその疑似カラー画像を生成させる。 法線推定の場合は、法線の3次元情報を RGB チャンネルに対応させる。右手系のカメラ座標系において、左右方向、上下方向、カメラ方向の成分をそれぞれ色として表現する。 これらの開発において特殊なアーキテクチャ、専用ヘッド、専用損失を使っていない点である。基本的には、「このような画像を生成してください」と指示し、通常の画像生成損失によって学習している。 また、これらの視覚タスクへの指示チューニングを行っても、元の画像生成能力が失われないように、生成データも混ぜて追加学習している。その結果、作られたモデルは、画像生成と視覚理解の両方を扱えるようになっており、汎用モデルとして扱える。 なおnano bananaの学習データ規模、学習手法が公開されていないのと同様に、本手法においてもデータ規模、画像生成手法は公開されていない(おそらく拡散モデルの変種と考えられるが) コメント === 自然言語処理で起きた「生成タスクで強力に事前学習されたモデルが、汎用タスクに使えるようになる」という現象が、視覚理解においても起き始めた瞬間(GPT-3ぐらい)といえる。 本論文では、各タスクを画像出力に統一したことが大きな貢献の一つである。ただし、これが重要というより本質は、画像生成モデルがここまで強力になると、その副産物として視覚理解能力も獲得されることを示した点にあるだろう。 今後は LLM と同様に、視覚においても、巨大な学習工程による事前学習、各タスク向けの事後学習、さらに高速化のための蒸留や特化モデルへの展開が進んでいくと考えられる。 この流れは、Richard Sutton の Bitter Lesson を思い出させる。つまり、汎用的で計算資源を大量に投入できる手法が、ドメイン特化のさまざまな手法を最終的に上回っていく、という見方である。AI研究者にとって苦い教訓として知られている。 もちろん、これであらゆる用途にそのまま使えるというわけではない。視覚認識では速度やコストが重要であり、巨大な生成モデルは重いため、実用上は専用モデルを作る場面も重要であろう。しかし、多くの汎用的な視覚タスクをこの枠組みで扱える可能性が示されたこと、そして性能をさらにスケールさせるための明確な方法論が見えたことは重要である。 また、すでに動画生成モデルについても、汎用的な視覚理解や世界モデルとしての可能性が示され始めている。今後も、様々なタスクにおいて、大規模な生成タスクによる事前学習から、様々な専用タスクへ適応させる流れがさらに進んでいくだろう。
日本語
3
83
355
44.4K