鮗
677 posts




最近のLLMの研究開発動向まとめ。 ・最近のLLMは、性能向上よりも「長文処理のコスト削減」が重要テーマになっている。 ・Gemma 4は、層をまたいでKVキャッシュを共有し、長文時のメモリ消費を大幅に削減した。 ・Laguna XS.2は、レイヤごとに注意機構の“予算配分”を変え、高価な全体注意を節約している。 ・ZAYA1-8Bは、圧縮した潜在空間で直接Attentionを行うCCAを採用し、Attention自体の計算量を減らした。 ・DeepSeek V4は、残差接続そのものを多重化するmHCや、長文を圧縮して扱うCSA/HCAを導入している。 ・どのモデルも「Transformerを捨てる」のではなく、Transformer内部を少しずつ改造している。 ・結果として、コードや実装の複雑さは急激に増しており、現代LLMは“魔改造Transformer”の時代に入っている。 以前のLLM競争は、「パラメータ数を増やす」「学習データを増やす」という力技の側面が強かった。しかし最近は、推論時のメモリ帯域やKVキャッシュサイズ、Attention FLOPsの削減といった、かなりハードウェア寄りの最適化が前面に出てきている。特にReasoningモデルやAgent系では、長時間・長文脈を保持する必要があるため、単純に高性能GPUを積むだけでは限界が見え始めている。 興味深いのは、これらの改良が「Transformerの置き換え」ではなく、「Transformer内部の局所改造」で進んでいる点だ。Attention共有、圧縮Attention、残差経路の多重化など、個々は小さな変更に見えても、積み重なると実装は極端に複雑になる。GPT-2時代は数十行で説明できたTransformerが、2026年には巨大な“最適化の寄せ集め”になりつつあり、LLM開発が完全にシステム工学化していることを感じさせる記事だった。 magazine.sebastianraschka.com/p/recent-devel…
