
pao
8.7K posts

pao
@pppaaaooo
Kaggle Grandmasterだったり、atmaCupとかkaggle days championship得意だったり、LLM開発してたり、麻雀好きだったり。息子が可愛すぎてすばら!


【4/15開催】JOAI2026講評会、いったい何が聞けるの?中身を紹介します📣 第一部:JOAI委員会による総括 ・JOAI2026全体の振り返り ・各問題に込められた狙い ・「なぜこの問題を出したのか」を作問者本人が解説 第二部:上位入賞者による解法紹介 ・トップ層は何を考え、どうコードを書いたのか ・解法のアイデアと試行錯誤 ・本人の口から直接聞ける貴重な機会 第三部:スポンサーセッション 論文や記事では得られない「同世代トップの思考プロセス」を、生の言葉で聞けるイベントになっています✨ 日時:4/15(水)19:00〜21:00 形式:オンライン(Zoom)/参加費 無料 申込はこちら! joai-commitee.connpass.com/event/389126/



KaggleのLLM系コンペ、この辺曖昧な印象あって困る。 商用LLM側の規約は業務だとほぼほぼ引っかかるけどKaggleだと微妙なこと多いし、コンペ毎に明記して欲しい。。 過去コンペのソリューション見てるとOKなケースも多くあるけど実際どうなんだろう

Nemotronコンペ眺めてみたら、public notebook 上位がみんな Gemini-2.0-flash の蒸留を行っており横転

コーラとピーナッツの組み合わせのツイートが流れてきてたので試してみた!塩味が重要ってどこかで見たのでクレイジーソルト塩ナッツ ゆず風味 を選んでみた。キンキンに冷えたグラスも用意したぜ。さて……… ………えっ美味いな!?





【お知らせ】 LLMのツール利用能力向上に向けたAgentic RLの取り組みの結果、ベースモデルから大幅な性能向上を達成しました。詳細な取り組み内容に関するテックブログを公開します。 ■テックブログ zenn.dev/elyza/articles… 本取り組みでは、LLMに単にツールを呼ばせるのではなく、必要な根拠に到達するための探索を、適切な深さまで続け、適切なタイミングで打ち切る行動能力そのものをRL(強化学習)で改善することを目指しました。 題材として、法令文章を用いたマルチホップ・マルチドキュメントQAを設計し、検索ツールで複数の文章を参照することで解くことを想定した高難易度のタスクを構築しました。これは、モデル自身の内部知識を問うというよりも、有限の文章プールから必要な根拠を探し出して回答するという、企業内や閉域環境で重要となる設定を意識したものです。 学習にはDAPOを使い、Qwen3-32B/8Bのベースモデルに対して、検索クエリの生成・文書の取得・探索停止判断まで含めたLLM Agentの行動を最適化しました。モデルの規模感については、検証段階での学習しやすさを意識したものですが、コストをはじめとした実運用面でも有利となります。 結果として、構築した評価セット上でベースモデルからの明確な改善を確認し、Qwen3-32BベースのモデルではGPT-5.2に匹敵する性能を達成しました。加えて、平均ツール利用回数や根拠文章への到達率の観点でも改善が見られ、「検索して読む」過程そのものが改善されました。 また、out-of-domainの評価でもベースモデルからの性能向上が見られ、単なる法令知識の記憶による性能向上ではなく、より一般的なツール利用行動の改善に繋がっている可能性が示されました。 学習・評価に用いたELYZA-MuLQ (ELYZA Multi-document Legal QA) の評価データ、及び法令文章の文章プールについては近日公開予定です。 小型〜中規模モデルで、高性能かつ実用的なLLM Agentを作ることに関心のある方に、ぜひ読んでいただきたい内容です。









