
【お知らせ】GRPO学習において、LLM-as-a-judgeベースの主観的な判定を取り入れる手順を紹介した技術ブログを公開しました。vLLMを用いて高速に報酬計算をするための構成や、5段階評価などよりも精緻で解釈性の高いルーブリックに基づく報酬関数の設計などを解説しています。また学習対象と報酬計算用のモデルにはいずれもVLM (Vision-Language Model) を用いるなど、実務においても参考になる部分が多いかと思いますので是非ご覧ください。 ■ ルーブリックに基づく主観的な判定を取り入れたGRPO学習 zenn.dev/elyza/articles…




