Daisuke Okanohara / 岡野原 大輔

Sparser, Faster, Lighter Transformer Language Models arxiv.org/abs/2603.23198

Dansk

1.8K

Transformerの中でも計算が大きい、FFN内部のニューロン活性をL1正則化も組み合わせ疎にし、GPUカーネル上の実装最適化も行うことで、高速化、省メモリ化につなげる手法が提案されている。 Transformerは大きく、注意機構と、FFNから構成され、計算量の大部分をFFNが占める。最近はFFNをMoE化する例が増えている。多くのFFNはgated FFNを採用している。これは入力からゲート出力と線形変換を計算した後要素ごとの積をとることで中間表現を得る。この研究では疎にするために、ゲート側の活性関数として、従来使われる滑らかなSiLUやSwiGLUではなく、ReLUを使うことで多くの成分が自然に0になるようにするさらに学習時にFFN活性値に対してL1正則化を加える。これによりなるべく少数のニューロンを使って予測するように圧力をかける。こうしたことで99%以上の活性値を0にできながら下流タスク性能劣化をほとんどおさえられる。しかし現在のGPUは密な行列演算に最適化されており、疎な表現しても活用できない。そこでTile-wise ELLPACKというスパース形式、列方向のタイルごとに非ゼロ要素を詰めた表現を使い、gate projectionの計算と同じカーネル内で計算するようにする。さらに推論時にはまずgate活性を計算し、非ゼロ要素をTwELL形式で保存。非ゼロニューロンのみ、up projectionとdown projectionを計算するようにする。学習全体は20%の高速化が達成され、推論でも最大30%程度の高速化が達成されるコメント === MoEはエキスパート単位で疎にするのにし、本研究ではFFNニューロン単位でスパースにする。非構造化スパースは実行効率をあげることが簡単ではないが、今回カーネル最適化も含め学習と推論で20~30%の高速化が達成された。（なお、本研究自体はFFN一般に使える手法なのでMoE内部のFFNに使うことも可能）。一方、99%も疎にできているのに全体の高速化率が20%に留まっている（これでもすごいが）というようにメモリアクセスへの特性上、密な計算が得意な最近のHWに対して、非構造の疎化をどのように活かしていくかは大きな課題である。完全な非構造化じゃなく、なんらかのブロック化を導入（これをすすめると結局MoEに近づいていってしまうが）したり、よく使われるニューロンにつながる重みだけを高速なメモリ上においておき、必要なニューロンをメモリ階層として呼び出すなど、システム全体の最適化なども考えていく必要がでてくる。

日本語

196

26.4K

Spherical Flows for Sampling Categorical Data arxiv.org/abs/2605.05629

English

3.6K

球面上で、言語のような離散データを連続的に生成する手法が注目されている。具体的には、各トークンに対応する埋め込みベクトルを長さ1に正規化し、高次元球面S^{d-1}S上の点として配置する。そのうえでノイズを加え、拡散過程を定義する必要がある。しかし、球面上ではベクトルの長さを保つ必要があるため、ノイズは「位置のずれ」ではなく、「方向のずれ」、すなわち方向の不確かさとして表される。これを自然に実現するのが、von Mises-Fisher分布である。vMF分布は、球面上の正規分布のようなものであり、一様ノイズから平均方向の周辺へ集中していく過程を表せる。単位球面上において、ある方向wの周りに点が集まる分布は、次のように表される。 p(x∣w,κ)∝exp⁡(κ) ここで、xxx は球面上の点、www は正解トークンの埋め込み方向である。また、は内積だが、両方が単位ベクトルなのでコサイン類似度に等しい。 κは集中度を表す。 κが大きいほど分布はwの近くに集中し、κ=0のときは球面上一様分布となる。このように、vMF分布では内積だけで確率が決まる。つまり、正解トークンと現在の点がどれだけ近い方向を向いているかによって確率が決まるため、言語埋め込みの幾何と相性がよい。一方、one-hotベクトルにガウスノイズを足す場合、すべてのトークン間距離が等しくなりやすく、トークン間の意味的な近さを反映しにくい。モデルは、現在の球面上の点xを入力として、各トークンに対する予測分布を出力する。言い換えれば、「この点はどのトークン埋め込みから来たものか」を予測する。この事後分布を使って、生成時に球面上の点をどの方向へ動かすかを決める。このとき速度場が必要になるが、vMF pathでは条件付き速度を球面上の連続方程式から導くことができる。さらに、vMF分布の回転対称性を利用することで、この問題をコサイン類似度に関する1次元ODEへ帰着できる。加えて、スコア、すなわち対数尤度の勾配も閉じた形で求めることができる。そのため、通常のODEサンプリングだけでなく、スコアを使ったpredictor-correctorサンプリングも可能になる。サンプリング時には、モデルが出力する各トークンへの予測確率を重みとして使う。具体的には、現在の点から各トークン埋め込み方向へ向かう接ベクトルを計算し、それらを予測確率で重み付き平均する。その平均方向へ球面上を少しずつ進むことで、ノイズからトークン埋め込みへ近づけていく。コメント === 球面上の拡散モデルは、まだ基礎研究寄りの段階であり、今すぐLLMを置き換えられる技術ではない。しかし、離散生成を連続幾何で扱うための有力な設計原理である。特に今回のvMF定式化では、ノイズ過程がコサイン類似度と自然に結びつき、さらにスコアも直接求められるのは興味深い。

日本語

208

22.6K

Efficient Pre-Training with Token Superposition arxiv.org/abs/2605.06546

English

2.6K

Token-Superposition Training は、LLM の大規模事前学習を効率化する手法である。第一段階では、連続する複数トークンをまとめて一つの bag とし、それらの埋め込みを平均して一つの入力表現にする。出力側では、次の1トークンを当てるのではなく、次の bag に含まれる複数トークンを multi-hot cross entropy で予測する。つまり、順序情報を落とした「次の複数トークン集合」を予測する。第二段階では、通常の自己回帰的な next-token prediction に戻し、復元学習を行う。この方法により、学習時の tokens-per-FLOP を大幅に改善できる。論文では、3B dense モデルで約2倍、10B-A1B MoE モデルで約2.5倍の高速化を達成したと主張している。代表的な設定では、3B モデルでは6トークンを平均化し、10B-A1B MoE モデルでは16トークンを平均化している。下流評価では改善するタスクもある一方で、すべてのタスクで一様に改善しているわけではない。また、大規模実験での再現性や汎用性の検証は今後の課題である。コメント === 複数トークンを予測する MTP、future summary prediction、SuperBPE、byte/subword モデル、coarse-to-fine pretraining などの要素を組み合わせた手法といえる。入力側を粗くするのと同時に、出力側でも複数トークンを予測している点が特徴である。トークナイザを変更する必要がないため、実運用に乗せやすい魅力がある。アイデアは非常に単純だが、実験結果は強く、LLM 事前学習の効率化手法として有望である

日本語

7.6K

Qwen-Image-VAE-2.0 Technical Report arxiv.org/abs/2605.13565

Magyar

3.3K

画像生成で使われる潜在拡散モデルでは、画像をVAEで潜在空間に圧縮してから、DiTなどの拡散モデルで生成を行う。通常よく使われる空間圧縮率はf8、つまり縦横をそれぞれ1/8にする設定だが、Qwen-Image-VAE 2.0ではf16やf32まで圧縮率を高めている。ただし、圧縮率を高めると、文字や細線などの細部が失われやすくなる。そこで、以下の工夫を導入している。 - 潜在チャネル数を増やし、空間方向の圧縮による情報量の低下を補う - Global Skip Connectionにより細部を保存する。具体的には、入力画像の空間情報をspace-to-channelで折りたたみ、潜在表現側に直接流す - DINOv2の中間特徴に潜在表現をアラインさせ、拡散モデルが学習しやすい潜在空間にする - 文字が潰れやすい問題に対処するため、文字リッチな実データと合成レンダリングデータを使って訓練する

日本語

136

16.9K

arxiv.org/abs/2605.11181

ZXX

大規模言語モデルの学習では、Muonと呼ばれる最適化手法が注目されている。Muonは、通常の勾配降下とは異なり、各重み行列の勾配を行列として扱い、そのスペクトル構造を変換してから更新に使う。 Muonは勾配行列の方向ごとの強さを揃えるため、特異値を1に揃えてから適応する。そのためMuonの成功は、しばしば勾配スペクトルを白色化し、適切な非ユークリッド幾何に沿って最急降下しているからと説明されてきた。今回の論文では、この説明に疑問を投げかけ、厳密な白色化や幾何構造ではなく、もっと粗いスペクトル操作とステップサイズの安定化ではないか、というのである。例えば、Freonという変種を考え、通常の勾配降下から、Muon、さらに擬似逆行列に近いもので表せるものを作る。この場合、あるノルムに対する正しい最急降下として表せない範囲が最適なことがみられる。さらに特異値をランダム化したKaonも実験ではMuonにかなり近い性能を示す。これらの結果から、もしMuonの本質が特定のノルム幾何に厳密に従うことではなく、元の勾配スペクトルを破壊し、過大な特異値を抑え、更新スケールを安定化することにあるのではないかと示唆される。さらに、バッチ勾配と真の勾配の整合性と、方向ごとの降下可能性をみた場合、通常の勾配方向は、一見すると最も自然に見えるが、ミニバッチ勾配にはノイズがあり、また曲率の高い方向に強く引っ張られることもある。その方向にそのまま進むと、ステップサイズを小さくせざるを得ない。一方、MuonやFreon、Kaonのようなスペクトル変換は、勾配との単純な整合性を少し犠牲にするが、より低曲率で、大きなステップを踏みやすい方向を作る。この観点では、Muonの本質は正しい幾何ではなく、学習率を合わせやすい更新方向を作っている可能性があるただし、実験の中心はGPT-2規模やNanoGPT、WikiText-2であり、大規模事前学習で同じ結論が成り立つかは要検証

日本語

189

16.4K

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation arxiv.org/abs/2604.13010

English

2.5K

LLMの事後学習では、オンポリシー蒸留（OPD）が有力な手法として使われている。OPDでは、生徒モデル自身が生成した出力に対して、より強い教師モデルのトークンごとの確率分布を参照し、生徒モデルを教師モデルに近づける。しかしOPDには、学習中に強い教師モデルを常時サーブし続けなければならないという大きな問題がある。さらに、学習中の生徒モデルによるロールアウトも毎回行う必要がある。Lightning OPDは、この問題を解決する手法である。まず、教師モデルが生成したデータでベースモデルをSFTし、参照モデルを作る。次に、この参照モデルを使って応答を一度だけ生成し、その応答に対する教師モデルのトークンごとの対数確率を事前計算して保存しておく。学習時には、参照モデルによる固定応答上で、保存済みの教師モデルの対数確率と、現在学習中の生徒モデルの対数確率との差をアドバンテージとして用い、生徒モデルを更新する。従来、適当なモデルを使ってロールアウトデータを作ると、ロールアウト分布と、OPDで参照する教師が一致しない。本論文では、この不一致が勾配バイアスを生み、性能低下につながることを示している。これに対し、Lightning OPDではSFT教師とOPD教師を一致させることで、教師整合性を保つ。実験では、4Bおよび8Bモデルの設定において、数学・コーディングタスクで標準OPDと同等、またはそれを上回る性能を達成している。また、計算コストについても、約4倍の効率化を実現している。コメント === OPDは強力だが、実現にはかなり大きな計算・インフラ上の負担がある。Lightning OPDは、教師モデルの常時サービングと学習中の生徒ロールアウトを不要にすることで、OPDをかなり現実的に実行できる形にしている。また、この手法におけるSFT段階は、広い意味でmid-trainingに近い役割を持っている。mid-trainingは、ベースモデルをいきなり最終タスクに向けて最適化するのではなく、目的に近い中間分布へ一度移動させる段階である。 Lightning OPDにおけるSFTも、後続のOPDが有効に働くように参照モデルの分布を整える段階であり、OPDのための分布整形とみなすことができる。

日本語

107

10.2K

Continuous Latent Diffusion Language Model: arxiv.org/abs/2605.06548

Français

3.1K

Cola（Continuous Latent Diffusion Language Model）は、文章生成を二段階に分ける階層潜在変数モデルである。第一段階では、文章のグローバルな意味構造を連続潜在表現として生成し、第二段階では、その潜在表現に条件づけてテキストを生成する。具体的には、Text VAEによってテキストと潜在表現の間の変換を学習し、DiT / Flow Matchingによって潜在表現上の生成過程、すなわち latent prior を学習する。 Colaの特徴は、単に固定された潜在空間上で生成するのではなく、テキストを適切な潜在空間に写し込む部分も含めて学習している点にある。実験では、約2Bパラメータ規模でARモデルや既存の拡散言語モデルと比較し、スケーリング曲線としては有望な結果を示している。一方で、絶対性能ではまだARや既存の強力な拡散モデルに比べて低い部分もある。コメント === 直前で紹介したELFは、固定された埋め込み空間を用いるため設計が単純であり、小規模な実験でも既存手法と同等、あるいはそれを上回る性能を示している。その意味で、現時点では実証的に強い印象がある。一方で、長期的な可能性という点では、Colaの方がより大きな構想を持っている。長期的な研究方向としてはColaの問題設定も非常に重要である。文章生成をグローバルな意味構造の生成とローカルなテキスト実現に分解することで、ARとは異なるスケーリング経路を示せる可能性がある。理論的にも興味深く、さらに画像・動画・音声といった連続モダリティとの統合にも自然につながる設計だと考えられる。

日本語

7.2K

ELF: Embedded Language Flows arxiv.org/abs/2605.10938

English

2.7K