

Yuu Jinnai
7.2K posts






【お知らせ】 先立って公開したAgentic RLの成果発表に関連して、その学習基盤と訓練に関して得られた知見の記事を公開しました。本記事は先端技術開発における現実的な困難、面倒な所を取り上げた、泥臭い内容となりますので、Agentic RLに興味がある方には是非読んでいただきたいと思います。 ■テックブログ zenn.dev/elyza/articles… 先の記事ではタスク内容やどういったモデルを訓練したか、性能・コストはどうか、という観点で報告を行いましたが、本記事では主にAgentic LLMの基本動作や訓練の詳細、実装時のノウハウに焦点を当てた内容になっています。 盛んに研究開発が行われる領域ではしばしば訓練基盤が未整備であったり、既存フレームワークにバグが含まれていたりなど、モデルの訓練を安定的に・長期間に渡って続けられる体制を作ることそのものに難しさが生じる事があります。 特にAgentic RLでは「学習環境内でツール利用を行わせ、その結果を評価する必要がある」というLLMだけに留まらない多様な技術要素が絡んでくるため、その複雑性は一層大きくなります。例えば、 - 学習を行いたいタスクに必須な〇〇ツール・〇〇環境がフレームワークに存在しないがどう組み込む? - 学習中に外部APIをツールとして使わせると、コストがかなり高くなってしまうのでは…? - 報酬関数を色々設計してみたが、学習中にモデルが壊れてしまう といった、Agentic RLをいざやろうとすると発生しそうな具体的な問題について、ELYZAは今回どうしたのか?という所を紹介しています。 Agentic RLに興味がある方にとって面白い内容となっているのではないかと思いますので、是非ご覧になってください。

【お知らせ】 LLMのツール利用能力向上に向けたAgentic RLの取り組みの結果、ベースモデルから大幅な性能向上を達成しました。詳細な取り組み内容に関するテックブログを公開します。 ■テックブログ zenn.dev/elyza/articles… 本取り組みでは、LLMに単にツールを呼ばせるのではなく、必要な根拠に到達するための探索を、適切な深さまで続け、適切なタイミングで打ち切る行動能力そのものをRL(強化学習)で改善することを目指しました。 題材として、法令文章を用いたマルチホップ・マルチドキュメントQAを設計し、検索ツールで複数の文章を参照することで解くことを想定した高難易度のタスクを構築しました。これは、モデル自身の内部知識を問うというよりも、有限の文章プールから必要な根拠を探し出して回答するという、企業内や閉域環境で重要となる設定を意識したものです。 学習にはDAPOを使い、Qwen3-32B/8Bのベースモデルに対して、検索クエリの生成・文書の取得・探索停止判断まで含めたLLM Agentの行動を最適化しました。モデルの規模感については、検証段階での学習しやすさを意識したものですが、コストをはじめとした実運用面でも有利となります。 結果として、構築した評価セット上でベースモデルからの明確な改善を確認し、Qwen3-32BベースのモデルではGPT-5.2に匹敵する性能を達成しました。加えて、平均ツール利用回数や根拠文章への到達率の観点でも改善が見られ、「検索して読む」過程そのものが改善されました。 また、out-of-domainの評価でもベースモデルからの性能向上が見られ、単なる法令知識の記憶による性能向上ではなく、より一般的なツール利用行動の改善に繋がっている可能性が示されました。 学習・評価に用いたELYZA-MuLQ (ELYZA Multi-document Legal QA) の評価データ、及び法令文章の文章プールについては近日公開予定です。 小型〜中規模モデルで、高性能かつ実用的なLLM Agentを作ることに関心のある方に、ぜひ読んでいただきたい内容です。







