Daisuke Okanohara / 岡野原 大輔

6.7K posts

Daisuke Okanohara / 岡野原 大輔

Daisuke Okanohara / 岡野原 大輔

@hillbig

Co-founder and CEO of Preferred Networks (PFN). CEO of Matlantis.

Japan Tokyo Katılım Ocak 2008
856 Takip Edilen37.8K Takipçiler
Sabitlenmiş Tweet
Daisuke Okanohara / 岡野原 大輔
I have just released "Part II of the Thermodynamic Theory of Learning series." It shows that the difficulty of continual learning and the emergence of catastrophic forgetting can be understood as a consequence of a “critical period closure,” in which the learning process itself gradually restricts future adaptability. In Part I, we formulated learning as an irreversible transport process occurring over finite time and demonstrated that there is a theoretical lower bound on the irreversible cost required to move from one state to another. We termed this bound the Epistemic Speed Limit (ESL), showing that finite-time learning inevitably incurs entropy production. Part II investigates how this irreversibility constrains future reachability. Learning can be described as a transport map over parameter distributions. Let Ψ_A denote the transport map corresponding to one stage of learning, and Ψ_B the subsequent stage. The overall learning process is then represented by the composition Ψ_B ∘ Ψ_A. The Jacobian of this transport map characterizes how infinitesimal perturbations in the current neighborhood of parameters are stretched or contracted as the learning dynamics evolve. When maps are composed, their Jacobians compose multiplicatively. Since matrix rank cannot increase under composition, and singular values obey submultiplicative bounds, collapsed directions are not generically restored by subsequent learning. This structure implies that as learning progresses, the “dynamically usable degrees of freedom”—that is, the reachable set—monotonically shrink. To continuously measure this contraction of the reachable set, we introduce the notion of effective rank. This quantity measures the log-volume of directions that can be reconfigured without degrading previously learned tasks, and thus represents the degrees of freedom that remain dynamically accessible under future learning. Importantly, effective rank may decrease even when task performance remains unchanged. In other words, future adaptability can be silently lost independently of current performance. Furthermore, we formalize the local curvature structure required by a new task in terms of the stable rank of the Hessian. We prove a capacity-threshold theorem: when this required curvature dimension exceeds the remaining effective rank, adaptation without forgetting becomes impossible. The key point is not that compatible multi-task solutions fail to exist. Rather, under finite-time non-equilibrium learning dynamics, even if compatible solutions exist in principle, they may become unreachable. From this perspective, the difficulty of continual learning arises not merely from information loss, but from the irreversible disappearance of reconfigurable directions. We refer to this phenomenon as critical period closure. As learning progresses and the reachable set contracts, a stage is eventually reached beyond which adapting to new tasks without disrupting existing structure becomes geometrically impossible. The term is inspired by its structural analogy to biological critical periods. This framework also provides a geometric explanation for why widely used continual learning methods—such as replay buffers and curriculum learning—can be effective. Replay can be interpreted as suppressing reachable-set contraction and mitigating directional collapse. Curriculum learning can be viewed as a strategy to control early-stage anisotropic contraction, thereby preventing premature loss of effective degrees of freedom. At the same time, because submultiplicative contraction under map composition is fundamentally unavoidable, these methods cannot eliminate irreversibility entirely; they can only delay critical period closure. This work does not propose a new algorithm but rather analyzes structural constraints inherent in learning dynamics. We hope that this framework will serve as a theoretical foundation for future design principles in continual learning and for reconsidering update rules from a dynamical perspective.
English
1
6
28
17.5K
Daisuke Okanohara / 岡野原 大輔
フルスクラッチで開発した新モデル PLaMo 3.0 Prime β をリリースしました!今回は特にReasoning 対応 を進め、性能を大きく改善しています。モニター企業も募集 します。技術詳細はリンク先のブログにまとめています。 ・NICTとの共同研究 によりデータセットを共同構築し、事前学習モデルを開発 ・Qwen3-235B-A22B-Thinking / gpt-oss-120b と比較して、指示追従、対話能力では同等以上 (Japanese MTBench など従来系ベンチマークはほぼ上限) ・一方で、複数ターンのツール利用、数学、STEM はまだ改善余地があり、引き続き強化していきます 今後も開発を加速していきます。 また、一緒に作っていく仲間も募集しています。興味のある方はぜひご応募ください。 募集領域 ・データ設計 ・事前学習 ・事後学習 ・推論基盤 ・サービス開発 ・VLM
PFN Tech@preferred_jp

【ブログ】国産フルスクラッチ開発の生成AI基盤モデルPLaMo™︎で、初めてReasoningモデルとなった3シリーズと、これまでのモデルとの違いについて開発チームがブログを書きました。tech.preferred.jp/ja/blog/plamo-… 国産生成AI基盤モデルPLaMo 3.0 Prime β版は無償利用を前提に現在モニター企業様を募集中です。ぜひご応募ください。 forms.gle/x5JUAeRU9iwX3C…

日本語
2
39
232
27.6K
Daisuke Okanohara / 岡野原 大輔
Neural Thickets theory suggests that, at a large scale, numerous task-specific experts already exist in the neighborhood of the weights of pretrained models. As a result, random perturbations may generate a variety of specialized models. From this perspective, post-training can be understood less as creating new capabilities and more as rediscovering solutions that already exist in the surrounding parameter space. This tendency depends strongly on model size. For smaller models, the probability that random weight perturbations will improve performance is essentially zero. However, as models grow larger, the probability increases dramatically that a random perturbation will yield a model that performs better on a given target task. To explore this phenomenon, the paper investigates a method called RandOpt that applies random perturbations to a pretrained model to generate many candidate models. The best-performing candidates are then selected, and predictions are made by ensembling them. Surprisingly, this simple approach achieves performance comparable to more sophisticated post-training methods such as PPO, GRPO, and Evolution Strategies (ES). Comments === This research suggests that pretrained weights may already encode a wide range of capabilities. However, the tasks evaluated in the paper are relatively simple, and it remains unclear whether the same phenomenon holds for more complex tasks that LLMs typically address in practice. That said, empirical experience indicates that parameter updates during post-training are often relatively small, and the results of this study are consistent with that observation. Another intriguing question concerns why the density of useful solutions increases so dramatically with model size. It is known that larger models are more likely to converge to flatter regions of the loss landscape. One possible interpretation is that as model size increases, both the dimensionality of learned representations and the diversity of features expand. As a result, many downstream tasks may become solvable through relatively simple linear decision boundaries. In this view, flat regions of the loss landscape may actually contain a diverse population of nearby solutions, each corresponding to a different specialized capability.
English
1
1
5
4.4K
Daisuke Okanohara / 岡野原 大輔
Neural Thickets では、大規模に事前学習されたモデルの重みの周辺には、すでに多くのタスク専門家モデルが存在しており、ランダムな摂動によって様々な専門家を生成できる可能性があると指摘されている。 この見方に立つと、事後学習は新しい能力を生み出すというよりも、すでに周囲に存在する解を見つけ直す過程だと捉えることができる。 この傾向はモデルサイズに依存する。小さなモデルでは、ランダムに重みを変更しても性能が改善する確率はほとんどゼロに近い。 しかしモデルが大きくなると、ランダムな重み摂動によって対象タスクの性能が改善する解が現れる可能性が急激に高くなる。 実際に論文では、事前学習されたモデルにランダムな摂動を加え、多数の候補モデルを生成し、その中から性能の良いものを選び、アンサンブルによって予測を行う方法(RandOpt)を検証している。 この単純な方法でも、PPO、GRPO、ES などの手法と匹敵する性能が得られることが報告されている。 コメント === この研究は、事前学習後の重みがすでに多様な能力を内包している可能性を示している。 ただし、論文で試されているタスクは比較的単純なものであり、LLMが実際に使われるような複雑なタスクについてはまだ検証されていない。一方で、実務的にも事後学習ではパラメータの変更量が比較的小さいことが知られており、この結果はその経験則とも整合的である。 また、なぜモデルサイズが大きくなると解の密度が急増するのかという点も興味深い問題である。大きなモデルではフラットな解に到達しやすいことが知られている。 単純にはモデルサイズが増えると、特徴次元数が大きく、また各特徴の多様性が増えるため、多くのタスクは単純な線形分類で解けるようになり、フラットな解の集団は実は多様であり、それぞれが多様な専門家がいることを示唆している。
日本語
2
17
87
9.8K
Daisuke Okanohara / 岡野原 大輔
Pre-training of LLMs has once again become a major focus of attention. Although concerns about data scarcity are growing, pre-training itself continues to evolve. A key driver of this progress is the increasing use of synthetic data (see Tramel’s presentation at Berkeley, linked below). Although post-training can improve performance, the upper bound of a model’s capabilities is generally believed to be determined during the pre-training phase. This is because pre-training is where fundamental representations and basic reasoning patterns are acquired, and these tend to change only marginally during post-training. Looking at current scaling laws, the Chinchilla rule originally suggested that the optimal training data size is roughly 20 times the number of parameters. Recently, however, this ratio has increased to around 60 times the number of parameters. In addition, the emergence of Mixture-of-Experts (MoE) architectures has enabled increasing the total number of parameters without a proportional increase in inference compute. This development further intensifies data requirements. Compared with dense models, MoE models require fewer data visits per parameter and are therefore more susceptible to overfitting. As a result, typical MoE implementations require roughly 40 times as much data per total parameter as dense models. For example, a 1T-parameter model may require on the order of 40T tokens. Moreover, data diversity is critical. Simply repeating the same dataset multiple times does not meaningfully improve performance. However, when model-generated synthetic data is used directly as training data, the overall data quality can deteriorate. This phenomenon—often referred to as mode collapse—reduces the diversity present in the long tail of the data distribution and leads to more monotonous model outputs. One effective mitigation strategy is to mix real data and synthetic data during training. In addition, instead of fully regenerating data, it is often preferable to generate paraphrases of existing data. By synthesizing alternative expressions that preserve the original data's factual content, it is possible to improve training efficiency while maintaining data diversity. Importantly, the models used for paraphrasing do not necessarily need to be powerful; relatively small or weak models can be sufficient. This approach follows the same fundamental principle as data augmentation in computer vision. By observing the same information expressed in many different forms, the model learns representations that are independent of specific surface expressions while simultaneously learning the mapping between expressions and internal semantic representations. Recently, two types of synthetic data have emerged as particularly important. The first is program code. Code can be verified by execution, enabling automatic correctness checks and the generation of highly reliable training data. Beyond improving programming ability, code data appears to help models acquire broader representations and reasoning capabilities. The second is data containing explicit reasoning processes. If such reasoning traces are incorporated during pre-training rather than only during post-training, models may learn reasoning procedures—essentially, certain classes of algorithms—during pre-training itself. In real-world data, explicit reasoning processes are often absent; texts rarely include detailed explanations of why particular outcomes occur. To address this, one promising approach is to generate multiple reasoning trajectories with inexpensive, weaker models, then verify and filter them with stronger models. This pipeline can produce high-quality reasoning data suitable for inclusion in the pre-training corpus. In this sense, synthetic data acts as an amplifier of real-world data. Because human-generated data is fundamentally limited, synthetic data will likely play an increasingly central role in future large-scale model training.
English
2
8
39
10.1K
Daisuke Okanohara / 岡野原 大輔
LLMの事前学習が再び大きく注目されている。「インターネットは一つしかないため、データはいずれ枯渇し、従来のスケール拡大は続かない」という議論がある一方で、事前学習そのものは進化を続けている。その大きな理由の一つが、合成データの活用である(リンクにあるTramel氏のBerkely大の講演資料を参照) 事後学習によって性能は向上するが、その能力の上限は基本的に事前学習の段階で決まっていると考えられている。事前学習では表現や基本的な推論ロジックが獲得され、事後学習ではそれらが大きく変化することはないためである。 スケール則の現状を見ると、Chinchilla則では「学習データ量はパラメータ数の約20倍」が最適とされていたが、最近ではパラメータ数の60倍程度まで増えている。また、MoE(Mixture of Experts)の登場により、推論時の計算量を大きく増やさずに総パラメータ数を拡張できるようになった。データ需要としてはさらに悪いことに、Denseモデルと比べてMoEの方がパラメータあたりのデータ訪問回数が少なく、過学習しやすいことも知られている。MoEでは総パラメータ数の約40倍程度のデータを必要とするのが一般的である(1Tであれば40Tトークン)。 また、データの多様性がとにかく重要であり、同じデータを繰り返しみても性能は改善されない。 一方で、モデルが生成した合成データをそのまま学習データとして用いると、データの質が崩壊することが多い。これはいわゆる mode collapse と呼ばれる現象で、データ中のlong tail に存在する多様性が失われ、出力が単調化してしまう。 これに対しては、学習時に実データと合成データを混ぜて用いることで崩壊を防げることが示されている。また、完全な再生成ではなく、言い換えを中心とした生成であれば問題が起きにくい。元データの事実を保ったまま、様々な表現へと言い換えたデータを合成して用いることで、学習効率を高めることができる。 この際、言い換えに用いるモデル自体は必ずしも強力である必要はなく、比較的弱いモデルでもよいことが分かっている。これは従来の画像学習におけるデータオーグメンテーションと同様の考え方である。すなわち、様々な表現で書かれた事実から情報を獲得することで、表現の違いに依存しない意味の獲得と、表現から内部意味表現への写像を学習していく。 さらに近年、特に重要とされている合成データには2つある。一つ目は プログラムコード である。コードは実行によって検証可能であり、正しいデータを生成しやすいという特徴がある。プログラムスキルはもちろん、このデータからプログラムに限らない汎用の表現や思考能力を獲得できる。 二つ目は 推論(reasoning)過程を含んだデータ である。事後学習ではなく、事前学習の段階から推論過程を多く含むデータを用いることで、モデルは推論の方法(ある種のアルゴリズムとみなせるもの)を事前学習中に獲得できる可能性がある。 例えば、現実のデータには推論過程が明示されていないことが多い(なぜそうなったのかの結論が書かれていない)。これに対して、コストの低い弱いモデルで複数の推論過程を生成し、それを強いモデルで検証・フィルタリングすることで、質の高い推論データを作成し、学習データに加える方法を使うことができる。 このように合成データは、現実世界のデータを増幅する役割を果たしている。人間由来のデータが限られている中で、合成データは今後ますます重要な役割を担うと考えられる。
日本語
5
84
503
51.9K
Daisuke Okanohara / 岡野原 大輔
I recently gave a presentation at the Amica Conference on applying non-equilibrium thermodynamics as a framework for understanding the principles of learning. (Please see the link in the thread. The conference brought together prominent researchers in this field, and featured intensive discussions on the intersection of thermodynamics and AI. In my talk, I explored how concepts from non-equilibrium thermodynamics—recently discussed in my papers—might help us better understand learning. In particular, the presentation focused on three key questions: - Why is learning inherently irreversible? - Why is continuous learning so difficult? - Are there fundamental principles governing the overall learning process? To approach these questions, I introduced a perspective in which learning is viewed through free energy defined over an ensemble of learning trajectories. The conference led to many deep discussions from a variety of viewpoints. Topics ranged from the equivalence between information and energy (e.g., the Landauer limit) to free-energy formulations and the thermodynamic limits of computational circuits. Thermodynamics has long evolved beyond its original notions of heat and work. Today, it serves as a powerful framework for understanding information, computation, and macroscopic systems. I am optimistic that this perspective will continue to develop and play an important role in the future.
English
1
1
3
4.5K
Daisuke Okanohara / 岡野原 大輔
「知の協奏 AI × 物理」、またそれに続く「Amica Conference」で講演をしてきました。これらの講演資料を公開します(スレッド中のリンクをご覧ください)。 これらの会合には国内外の著名な研究者が招かれ、AIと物理の接点について議論が行われました。特に Amica では、熱力学とAIの接点 に焦点を当てた議論が集中的に行われました。 私の講演では、最近発表した論文で扱った非平衡熱力学の概念を「学習」の理解に応用できないかというテーマについて話しました。特に、 ・学習の非可逆性 ・継続学習がなぜ難しいのか ・学習全体を支配する原理 といった問題を理解することを目標とし学習軌道の仮想的なアンサンブル上に定義された自由エネルギーを考えています。 一方「AI × 物理」の講演では、物理にAIを使う側面 に焦点を当て、AIが 表現・推論・探索 をどのように再編しているのかを軸に説明しました。 期間中には、さまざまな観点から非常に深い議論を行うことができました。情報とエネルギーの等価性(ランダウアー限界)の話から、自由エネルギー計算、計算回路の熱的限界まで、多岐にわたる話題が議論されました。 熱力学は、そのオリジナルである「熱」や「仕事」といった概念を超え、情報やマクロな系を扱うための重要な枠組みとして発展してきています。今後もこの分野がさらに発展していくことを期待しています。
日本語
1
26
125
15.7K
Daisuke Okanohara / 岡野原 大輔
The Nemotron3-Super is a 120B-parameter MoE model that matches the performance of GPT-OSS 120B while achieving inference speeds that are 2.2× faster (and up to 7.5× faster when compared with Qwen). The model adopts a hybrid structure that combines Mamba2 and Transformer and introduces LatentMoE, a design that projects input representations into a lower-dimensional space before applying the MoE layer. LatentMoE effectively reduces the size of each expert by using a low-rank factorization. Unlike many recent MoE designs, where only a small number of experts (often around 8) are active, this design activates 22 of 512 experts simultaneously (many and small experts). The model also incorporates Multi-Token Prediction (MTP). In this mechanism, a small prediction head generates speculative predictions for multiple tokens during next-token prediction. The original large model then verifies and finalizes the predictions in subsequent inference steps. On average, approximately three tokens are accepted through this mechanism. For training, the model succeeds in large-scale pre-training using NVFP4 precision (note: precision is carefully controlled across different components: weights are partially stored in NVFP4, activations use FP8 or BF16, and optimizer states are maintained in BF16, etc.). This mixed-precision strategy significantly reduces both memory usage and communication costs during distributed training. Training with quantization typically introduces numerical instability. In this case, however, the successful NVFP4 pre-training likely results from two factors. First, LatentMoE is inherently robust to quantization, since low-rank matrices tend to exhibit smaller quantization errors. Second, while attention mechanisms rely on softmax operations and can therefore be numerically unstable, Mamba operates as a linear state-space system, which tends to be more stable under low-precision computation. Pre-training was conducted using 25 trillion tokens. The dataset includes not only high-quality web data but also data typically used during SFT as well as reasoning trajectories. The model supports context up to 1 million tokens. Long-context training data is constructed by concatenating documents such as books, academic papers, and code repositories to produce contexts of varying lengths. Questions are then generated using LLMs. These questions often span multiple documents and require multi-hop reasoning. For each question, eight reasoning traces are generated. The responses are evaluated using exact-match scoring and LLM-based judgment, after which the shortest reasoning trace among the majority-consistent answers is selected (additional implementation details are described in the paper). Post-training involves both SFT and reinforcement learning (RL). To enhance multi-step tool-use capabilities, the authors developed an asynchronous RL infrastructure capable of maintaining high throughput during training. Comments === In addition to its integrated architectural design, the paper provides detailed descriptions of training (e.g., the long-context training), an aspect that has been largely undocumented in previous frontier LLM research. As such, it offers valuable practical insights into large-scale LLM training. Analytical studies, such as ablation experiments, remain limited. Although extensive internal experimentation was likely conducted, further analysis would be necessary to clearly understand how each architectural component and training configuration contributes to the observed performance improvements.
English
1
2
5
3.9K
Daisuke Okanohara / 岡野原 大輔
Nemotron3-Superは120BのMoEモデルで、GPT-OSS 120Bと同等の性能を持ちながら、推論は2.2倍(Qwenと比較すると最大7.5倍)高速である。 アーキテクチャとしては、Mamba2とTransformerのハイブリッド構造を採用しており、MoEの前に入力を射影して低次元化する LatentMoE を用いている。 LatentMoEでは各エキスパートが小さくなる(低ランク近似しているとみなせる)設計されており、近年エキスパートが8個ぐらいしかアクティブにならない設計に対し、512個のエキスパートのうち22個がアクティブになるようになっている。 また Multi-Token Predictionを強化している。これは次トークン予測の際、小さなヘッドが複数トークンを投機的に同時予測し、次ラウンドの推論時に元の大きなモデルで確定させる仕組みである。平均で約3トークンが採択され、これによって推論を数倍高速化できる。 学習では NVFP4 を用いた大規模事前学習を実現している(重みは部分的にNVFP4、活性値はFP8またはBF16、最適化状態はBF16と、精度を細かく制御している点に注意)。これにより、特にメモリ使用量や分散学習時の通信コストを大幅に削減できている。 一般に学習時の量子化は不安定になりやすい。今回、NVFP4での事前学習が成功した理由として、LatentMoEが量子化に強いこと(低ランク行列は量子化誤差が小さい)、またAttentionはsoftmaxを含むため数値的に不安定になりやすいのに対し、Mambaは線形システムであるため安定しやすいことが挙げられると考えられる。 事前学習は25Tトークンで実施された。事前学習データには、高品質なデータに加えて、SFTで使用されるデータやreasoningデータなども多く含まれている。 また長コンテキスト化では最大1Mトークンまで拡張している。長コンテキストの学習データとして、本、論文、コードなどの文書を連結して様々な長さのコンテキストを作成し、それらに対する質問をLLMを用いて生成する。これらは文書をまたぐ質問であり、multi-hop reasoningを含む。また各質問に対して8個のreasoning traceを生成し、回答をexact matchやLLM judgeで評価した上で、多数派の回答の中から最短のreasoning traceを採用する(この他にも詳細な手順が記述されている)。 事後学習ではSFTおよびRLを行う。特にツールを用いた複数ステップの能力を強化するため、非同期で高スループットを維持するRLインフラを構築して学習を行っている。 コメント === アーキテクチャの統合設計に加え、これまで詳細があまり報告されてこなかったlong-contextの学習データ設計が示されており、LLM学習の実践的な知見として重要である。 一方で、ablation studyなどの分析は限定的であり(おそらく内部では多くの検証が行われていると思われるが)、今回採用したアーキテクチャや学習設定がそれぞれどのように性能向上に寄与しているのかについては、今後さらなる分析が必要である。
日本語
1
44
206
20.8K
Daisuke Okanohara / 岡野原 大輔
データ駆動型材料科学研究会 2026年夏季年会 が7/6(月), 7日(火)に開催されます (詳細リンクはスレッド内) ・データ駆動型材料探索・材料設計 ・機械学習・統計解析の材料科学への応用 ・シミュレーションとデータ科学の融合 など 御興味のある方、ぜひご参加を検討いただければとおもいます。
日本語
1
5
23
7.4K
Daisuke Okanohara / 岡野原 大輔
生体の科学に寄稿した 「大規模言語モデルからみた脳科学と人工知能の未来」が、多くのアクセスをいただいたとのことで、ご好意により4月下旬まで期間限定で公開されています(リンクはスレッドにあります)。 現在のLLMと脳の仕組みとの違いをまとめています。ご興味があれば、ぜひご覧ください。
日本語
2
64
304
30.8K