Yuu Jinnai

7.2K posts

Yuu Jinnai banner
Yuu Jinnai

Yuu Jinnai

@DINDIN92

強化学習の研究をしています🐈

Tokyo, Japan Katılım Eylül 2011
1K Takip Edilen1.9K Takipçiler
Sabitlenmiş Tweet
Yuu Jinnai
Yuu Jinnai@DINDIN92·
📘✨新刊のお知らせ✨📘 『ヒューリスティック探索 合理的なAIをつくるためのアルゴリズム』 4月24日から書店およびAmazonで販売されます! 「機械学習じゃない人工知能」を学ぶための教科書です! 🔍探索、推論、エージェントとプランニングの概念と実装方法が学べます! amazon.co.jp/dp/4065392187
Yuu Jinnai tweet media
日本語
4
134
774
89K
Yuu Jinnai
Yuu Jinnai@DINDIN92·
お出かけしようとするとネコが妨害してくる せつない・・・
日本語
0
0
2
210
Yuu Jinnai
Yuu Jinnai@DINDIN92·
本当はそこは人間のベッドなんだよ
Yuu Jinnai tweet media
日本語
0
0
3
284
Yuu Jinnai
Yuu Jinnai@DINDIN92·
かわいいこ
Yuu Jinnai tweet media
日本語
0
0
6
300
Yuu Jinnai
Yuu Jinnai@DINDIN92·
@shunk031 関連あるか分かりませんが、fsdp 2で並列化しているときにcpu offloadを有効にしているとtensor shape違うよというエラーが出たことがあります。私の時はcpu offloadをdisableにしたら直りました。
日本語
1
0
0
588
Yuu Jinnai
Yuu Jinnai@DINDIN92·
@shoetsu_sato なるほどな~って記事読んでたら見覚えのあるソーナンスで笑っちゃった やっぱverlの方がtrlよりも良さそうだよね~。
日本語
1
0
0
86
ではないです
ではないです@shoetsu_sato·
後編もぺたり x.com/ELYZA_inc/stat…
ELYZA, Inc.@ELYZA_inc

【お知らせ】 先立って公開したAgentic RLの成果発表に関連して、その学習基盤と訓練に関して得られた知見の記事を公開しました。本記事は先端技術開発における現実的な困難、面倒な所を取り上げた、泥臭い内容となりますので、Agentic RLに興味がある方には是非読んでいただきたいと思います。 ■テックブログ zenn.dev/elyza/articles… 先の記事ではタスク内容やどういったモデルを訓練したか、性能・コストはどうか、という観点で報告を行いましたが、本記事では主にAgentic LLMの基本動作や訓練の詳細、実装時のノウハウに焦点を当てた内容になっています。 盛んに研究開発が行われる領域ではしばしば訓練基盤が未整備であったり、既存フレームワークにバグが含まれていたりなど、モデルの訓練を安定的に・長期間に渡って続けられる体制を作ることそのものに難しさが生じる事があります。 特にAgentic RLでは「学習環境内でツール利用を行わせ、その結果を評価する必要がある」というLLMだけに留まらない多様な技術要素が絡んでくるため、その複雑性は一層大きくなります。例えば、 - 学習を行いたいタスクに必須な〇〇ツール・〇〇環境がフレームワークに存在しないがどう組み込む? - 学習中に外部APIをツールとして使わせると、コストがかなり高くなってしまうのでは…? - 報酬関数を色々設計してみたが、学習中にモデルが壊れてしまう といった、Agentic RLをいざやろうとすると発生しそうな具体的な問題について、ELYZAは今回どうしたのか?という所を紹介しています。 Agentic RLに興味がある方にとって面白い内容となっているのではないかと思いますので、是非ご覧になってください。

日本語
1
0
7
509
ではないです
ではないです@shoetsu_sato·
ここ半年くらいがっつりAgentic RLやってました。組織としてAgentic RLを継続的に実施できる体制を作る、それを先行組織に追いつけるスピードでやるのは超大変で俺この半年でこの世の全て(過言)をやらなきゃいけないじゃん…みたいな状態になってました。興味のある方は是非一読・拡散して頂けると〜
ELYZA, Inc.@ELYZA_inc

【お知らせ】 LLMのツール利用能力向上に向けたAgentic RLの取り組みの結果、ベースモデルから大幅な性能向上を達成しました。詳細な取り組み内容に関するテックブログを公開します。 ■テックブログ zenn.dev/elyza/articles… 本取り組みでは、LLMに単にツールを呼ばせるのではなく、必要な根拠に到達するための探索を、適切な深さまで続け、適切なタイミングで打ち切る行動能力そのものをRL(強化学習)で改善することを目指しました。 題材として、法令文章を用いたマルチホップ・マルチドキュメントQAを設計し、検索ツールで複数の文章を参照することで解くことを想定した高難易度のタスクを構築しました。これは、モデル自身の内部知識を問うというよりも、有限の文章プールから必要な根拠を探し出して回答するという、企業内や閉域環境で重要となる設定を意識したものです。 学習にはDAPOを使い、Qwen3-32B/8Bのベースモデルに対して、検索クエリの生成・文書の取得・探索停止判断まで含めたLLM Agentの行動を最適化しました。モデルの規模感については、検証段階での学習しやすさを意識したものですが、コストをはじめとした実運用面でも有利となります。 結果として、構築した評価セット上でベースモデルからの明確な改善を確認し、Qwen3-32BベースのモデルではGPT-5.2に匹敵する性能を達成しました。加えて、平均ツール利用回数や根拠文章への到達率の観点でも改善が見られ、「検索して読む」過程そのものが改善されました。 また、out-of-domainの評価でもベースモデルからの性能向上が見られ、単なる法令知識の記憶による性能向上ではなく、より一般的なツール利用行動の改善に繋がっている可能性が示されました。 学習・評価に用いたELYZA-MuLQ (ELYZA Multi-document Legal QA) の評価データ、及び法令文章の文章プールについては近日公開予定です。 小型〜中規模モデルで、高性能かつ実用的なLLM Agentを作ることに関心のある方に、ぜひ読んでいただきたい内容です。

日本語
1
9
64
7.5K
Yuu Jinnai
Yuu Jinnai@DINDIN92·
かくれんぼが最近のお気に入りです🐱
Yuu Jinnai tweet media
日本語
0
0
2
259
Atsumoto Ohashi
Atsumoto Ohashi@atsumoto_ohashi·
名古屋大学を修了し、博士号を取得しました。東中研究室の皆さんをはじめ、多くの方々のおかげで、想像もできなかった充実した研究生活を送ることができました。本当にありがとうございました。4月からはパリでポスドクとして研究をする予定です!
Atsumoto Ohashi tweet media
日本語
12
3
172
9.4K
Yuu Jinnai
Yuu Jinnai@DINDIN92·
バレエをたしなんでおります🐱
Yuu Jinnai tweet mediaYuu Jinnai tweet mediaYuu Jinnai tweet mediaYuu Jinnai tweet media
日本語
0
0
3
318
Yuu Jinnai
Yuu Jinnai@DINDIN92·
あなたですよね 勝手に食べたのは
Yuu Jinnai tweet media
日本語
0
0
4
285
Yuu Jinnai
Yuu Jinnai@DINDIN92·
@shunk031 このあたりはもう正直強化学習というよりはHPCと並列計算&スケジュリングの世界なので、私よりもNVIDIAのエンジニアさんとかの方が詳しいんじゃないかな~という気がしますね。 その意味でNeMoRLはNVIDIA社製なので強いように思います。
日本語
1
0
3
320
しゅんけー「📕Pythonで学ぶ画像生成」発売中!
Node A (A100 80GB x 2) と Node B (H100 80GB x 8) が手元にある状態でQwen3-VL 32B を trl/ms-swift でGRPO するときに、Node A で vLLM 構えておいて、Node B で学習回すみたいなことやれるのかな? CUDA とかは揃えておくとして GPU 違うと流石に学習できないか?
日本語
6
1
30
7.6K
Yuu Jinnai
Yuu Jinnai@DINDIN92·
かわいいねぇ
Yuu Jinnai tweet media
日本語
0
0
5
281
Yuu Jinnai
Yuu Jinnai@DINDIN92·
国産odor-sensory-vision-taste-audio-language?-actionモデルです
Yuu Jinnai tweet media
日本語
0
0
5
372
Yuu Jinnai
Yuu Jinnai@DINDIN92·
やはりLLM開発はHPCの分野って感じがしますね~
日本語
0
0
7
608
Yuu Jinnai
Yuu Jinnai@DINDIN92·
@chokkanorg 返信ありがとうございます。 失礼しました、早とちりでした。今回のモデルにはallenaiのRLVRデータセットを使われているのですね。 日本語LLMの発展は日本の発展だと思っております。今後の先生の研究開発も楽しみにしております。
日本語
0
0
0
516
Naoaki Okazaki
Naoaki Okazaki@chokkanorg·
@DINDIN92 お問い合わせありがとうございます。ご懸念の点は我々も認識しておりまして、今回公開したモデルの学習に s1-test-time-scaling-synth-public は使われておりません。スレッドにぶら下げてしまったので紛らわしくてすみません。
日本語
1
0
2
689
Yuu Jinnai
Yuu Jinnai@DINDIN92·
@chokkanorg 本モデルをApache 2.0で公開することはGoogle社などから合意をもらっているという認識で合っておりますでしょうか? (2/2) 改めまして、Swallowの公開おめでとうございます。早速利用させていただこうと思います。テクニカルレポートの公開を楽しみにしております。 どうぞよろしくお願いします。
日本語
1
0
0
1.3K
Yuu Jinnai
Yuu Jinnai@DINDIN92·
@chokkanorg 岡崎先生、 Swallowの公開おめでとうございます。モデルの利用に関して質問がございます。 学習に用いられたs1-test-time-scaling-synth-publicデータセットはcopyrightedのものを含むデータがあり、それは学習に用いられているという認識で合っておりますでしょうか? (1/2)
日本語
1
0
4
3.2K
Yuu Jinnai
Yuu Jinnai@DINDIN92·
一週間探したがバグが見つけられず諦めてbeta版モデルを公開したところ、その30分後にバグを発見
日本語
0
0
7
671
Yuu Jinnai
Yuu Jinnai@DINDIN92·
- 私の主観評価だとplamo (どんな評価軸でも高水準) > translategemma27 (accuracy高い、流暢性でplamoに及ばない) > 🐱 ~= trasnlategemma12 ~= TowerPlus9 ~= shisa-llama3.2 (ドメイン・評価軸依存) - WMT general taskはoverfitting選手権 というところをこれから書いていこうと思っています
日本語
0
0
10
809
Yuu Jinnai retweetledi
国立情報学研究所(NII)
💡動画 第90回 教育機関DXシンポ 「LLMの学習メカニズムの解明」 磯沼 大 国立情報学研究所 大規模言語モデル研究開発センター / 東北大学言語AI研究センター 特任助教 日時:2025年7月11日 共催:国立情報学研究所 大学の情報環境のあり方検討会    大学共同利用機関法人 情報・システム研究機構 #decs #教育機関DXシンポ edx.nii.ac.jp/lecture/202507…
日本語
0
16
91
8.6K