Yuu Jinnai

7.2K posts

Yuu Jinnai

@DINDIN92

強化学習の研究をしています🐈

Tokyo, Japan Katılım Eylül 2011

1K Takip Edilen1.9K Takipçiler

Sabitlenmiş Tweet

Yuu Jinnai@DINDIN92·13 Mar

📘✨新刊のお知らせ✨📘 『ヒューリスティック探索合理的なAIをつくるためのアルゴリズム』 4月24日から書店およびAmazonで販売されます！「機械学習じゃない人工知能」を学ぶための教科書です！ 🔍探索、推論、エージェントとプランニングの概念と実装方法が学べます！ amazon.co.jp/dp/4065392187

日本語

134

774

89K

Yuu Jinnai@DINDIN92·2d

お出かけしようとするとネコが妨害してくるせつない・・・

日本語

210

Yuu Jinnai@DINDIN92·11 Nis

本当はそこは人間のベッドなんだよ

日本語

284

Yuu Jinnai@DINDIN92·5 Nis

かわいいこ

日本語

300

Yuu Jinnai@DINDIN92·2 Nis

@shunk031 関連あるか分かりませんが、fsdp 2で並列化しているときにcpu offloadを有効にしているとtensor shape違うよというエラーが出たことがあります。私の時はcpu offloadをdisableにしたら直りました。

日本語

588

しゅんけー「📕Pythonで学ぶ画像生成」発売中！@shunk031·2 Nis

veRL の fully async trainer で Qwen3-VL GRPO しようとしてるけど時たま謎のテンソルシェイプ合わないエラー出てデバックがかなりたいへん（再現しない…）

日本語

1.6K

Yuu Jinnai@DINDIN92·31 Mar

@shoetsu_sato なるほどな～って記事読んでたら見覚えのあるソーナンスで笑っちゃったやっぱverlの方がtrlよりも良さそうだよね～。

日本語

ではないです@shoetsu_sato·31 Mar

後編もぺたり x.com/ELYZA_inc/stat…

ELYZA, Inc.@ELYZA_inc

【お知らせ】先立って公開したAgentic RLの成果発表に関連して、その学習基盤と訓練に関して得られた知見の記事を公開しました。本記事は先端技術開発における現実的な困難、面倒な所を取り上げた、泥臭い内容となりますので、Agentic RLに興味がある方には是非読んでいただきたいと思います。 ■テックブログ zenn.dev/elyza/articles… 先の記事ではタスク内容やどういったモデルを訓練したか、性能・コストはどうか、という観点で報告を行いましたが、本記事では主にAgentic LLMの基本動作や訓練の詳細、実装時のノウハウに焦点を当てた内容になっています。盛んに研究開発が行われる領域ではしばしば訓練基盤が未整備であったり、既存フレームワークにバグが含まれていたりなど、モデルの訓練を安定的に・長期間に渡って続けられる体制を作ることそのものに難しさが生じる事があります。特にAgentic RLでは「学習環境内でツール利用を行わせ、その結果を評価する必要がある」というLLMだけに留まらない多様な技術要素が絡んでくるため、その複雑性は一層大きくなります。例えば、 - 学習を行いたいタスクに必須な〇〇ツール・〇〇環境がフレームワークに存在しないがどう組み込む？ - 学習中に外部APIをツールとして使わせると、コストがかなり高くなってしまうのでは…？ - 報酬関数を色々設計してみたが、学習中にモデルが壊れてしまうといった、Agentic RLをいざやろうとすると発生しそうな具体的な問題について、ELYZAは今回どうしたのか？という所を紹介しています。 Agentic RLに興味がある方にとって面白い内容となっているのではないかと思いますので、是非ご覧になってください。

日本語

509

ではないです@shoetsu_sato·31 Mar

ここ半年くらいがっつりAgentic RLやってました。組織としてAgentic RLを継続的に実施できる体制を作る、それを先行組織に追いつけるスピードでやるのは超大変で俺この半年でこの世の全て（過言）をやらなきゃいけないじゃん…みたいな状態になってました。興味のある方は是非一読・拡散して頂けると〜

ELYZA, Inc.@ELYZA_inc

【お知らせ】 LLMのツール利用能力向上に向けたAgentic RLの取り組みの結果、ベースモデルから大幅な性能向上を達成しました。詳細な取り組み内容に関するテックブログを公開します。 ■テックブログ zenn.dev/elyza/articles… 本取り組みでは、LLMに単にツールを呼ばせるのではなく、必要な根拠に到達するための探索を、適切な深さまで続け、適切なタイミングで打ち切る行動能力そのものをRL（強化学習）で改善することを目指しました。題材として、法令文章を用いたマルチホップ・マルチドキュメントQAを設計し、検索ツールで複数の文章を参照することで解くことを想定した高難易度のタスクを構築しました。これは、モデル自身の内部知識を問うというよりも、有限の文章プールから必要な根拠を探し出して回答するという、企業内や閉域環境で重要となる設定を意識したものです。学習にはDAPOを使い、Qwen3-32B/8Bのベースモデルに対して、検索クエリの生成・文書の取得・探索停止判断まで含めたLLM Agentの行動を最適化しました。モデルの規模感については、検証段階での学習しやすさを意識したものですが、コストをはじめとした実運用面でも有利となります。結果として、構築した評価セット上でベースモデルからの明確な改善を確認し、Qwen3-32BベースのモデルではGPT-5.2に匹敵する性能を達成しました。加えて、平均ツール利用回数や根拠文章への到達率の観点でも改善が見られ、「検索して読む」過程そのものが改善されました。また、out-of-domainの評価でもベースモデルからの性能向上が見られ、単なる法令知識の記憶による性能向上ではなく、より一般的なツール利用行動の改善に繋がっている可能性が示されました。学習・評価に用いたELYZA-MuLQ (ELYZA Multi-document Legal QA) の評価データ、及び法令文章の文章プールについては近日公開予定です。小型〜中規模モデルで、高性能かつ実用的なLLM Agentを作ることに関心のある方に、ぜひ読んでいただきたい内容です。

日本語

7.5K

Yuu Jinnai@DINDIN92·30 Mar

かくれんぼが最近のお気に入りです🐱

日本語

259

Yuu Jinnai@DINDIN92·26 Mar

@atsumoto_ohashi おめでとうございます！🎉

日本語

273

Atsumoto Ohashi@atsumoto_ohashi·26 Mar

名古屋大学を修了し、博士号を取得しました。東中研究室の皆さんをはじめ、多くの方々のおかげで、想像もできなかった充実した研究生活を送ることができました。本当にありがとうございました。4月からはパリでポスドクとして研究をする予定です！

日本語

172

9.4K

Yuu Jinnai@DINDIN92·21 Mar

バレエをたしなんでおります🐱

日本語

318

Yuu Jinnai@DINDIN92·15 Mar

あなたですよね勝手に食べたのは

日本語

285

Yuu Jinnai@DINDIN92·6 Mar

@shunk031 このあたりはもう正直強化学習というよりはHPCと並列計算＆スケジュリングの世界なので、私よりもNVIDIAのエンジニアさんとかの方が詳しいんじゃないかな～という気がしますね。その意味でNeMoRLはNVIDIA社製なので強いように思います。

日本語

320

しゅんけー「📕Pythonで学ぶ画像生成」発売中！@shunk031·6 Mar

@DINDIN92 国内で一番詳しそうな陣内さんからコメント来て泣いてます😭 verl は聞いたことあったんですが NeMo の RL 版もあるんですね！試してみます！

日本語

590

しゅんけー「📕Pythonで学ぶ画像生成」発売中！@shunk031·6 Mar

Node A (A100 80GB x 2) と Node B (H100 80GB x 8) が手元にある状態でQwen3-VL 32B を trl/ms-swift でGRPO するときに、Node A で vLLM 構えておいて、Node B で学習回すみたいなことやれるのかな？ CUDA とかは揃えておくとして GPU 違うと流石に学習できないか？

日本語

7.6K

Yuu Jinnai@DINDIN92·5 Mar

かわいいねぇ

日本語

281

Yuu Jinnai@DINDIN92·26 Şub

国産odor-sensory-vision-taste-audio-language?-actionモデルです

日本語

372

Yuu Jinnai@DINDIN92·21 Şub

やはりLLM開発はHPCの分野って感じがしますね～

日本語

608

Yuu Jinnai@DINDIN92·20 Şub

@chokkanorg 返信ありがとうございます。失礼しました、早とちりでした。今回のモデルにはallenaiのRLVRデータセットを使われているのですね。日本語LLMの発展は日本の発展だと思っております。今後の先生の研究開発も楽しみにしております。

日本語

516

Naoaki Okazaki@chokkanorg·20 Şub

@DINDIN92 お問い合わせありがとうございます。ご懸念の点は我々も認識しておりまして、今回公開したモデルの学習に s1-test-time-scaling-synth-public は使われておりません。スレッドにぶら下げてしまったので紛らわしくてすみません。

日本語

689

Naoaki Okazaki@chokkanorg·20 Şub

📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。継続事前学習＋SFT＋強化学習を全面刷新し、日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-swallow.… GPT-OSS Swallow: swallow-llm.github.io/gptoss-swallow…

日本語

342

1.3K

235.8K

Yuu Jinnai@DINDIN92·20 Şub

@chokkanorg 本モデルをApache 2.0で公開することはGoogle社などから合意をもらっているという認識で合っておりますでしょうか？ (2/2) 改めまして、Swallowの公開おめでとうございます。早速利用させていただこうと思います。テクニカルレポートの公開を楽しみにしております。どうぞよろしくお願いします。

日本語

1.3K

Yuu Jinnai@DINDIN92·20 Şub

@chokkanorg 岡崎先生、 Swallowの公開おめでとうございます。モデルの利用に関して質問がございます。学習に用いられたs1-test-time-scaling-synth-publicデータセットはcopyrightedのものを含むデータがあり、それは学習に用いられているという認識で合っておりますでしょうか？ (1/2)

日本語

3.2K

Yuu Jinnai@DINDIN92·12 Şub

一週間探したがバグが見つけられず諦めてbeta版モデルを公開したところ、その30分後にバグを発見

日本語

671

Yuu Jinnai@DINDIN92·3 Şub

- 私の主観評価だとplamo (どんな評価軸でも高水準) > translategemma27 (accuracy高い、流暢性でplamoに及ばない) > 🐱 ~= trasnlategemma12 ~= TowerPlus9 ~= shisa-llama3.2 (ドメイン・評価軸依存) - WMT general taskはoverfitting選手権というところをこれから書いていこうと思っています

日本語

809

Yuu Jinnai retweetledi

国立情報学研究所(NII)@jouhouken·8 Oca

💡動画第90回教育機関DXシンポ「LLMの学習メカニズムの解明」磯沼大国立情報学研究所大規模言語モデル研究開発センター / 東北大学言語AI研究センター特任助教日時：2025年7月11日共催：国立情報学研究所　大学の情報環境のあり方検討会　　　大学共同利用機関法人　情報・システム研究機構 #decs #教育機関DXシンポ edx.nii.ac.jp/lecture/202507…

日本語

8.6K

Keşfet

@shunk031 @shoetsu_sato @atsumoto_ohashi @chokkanorg @elonmusk @BarackObama @taylorswift13 @cristiano