pao (@pppaaaooo) - Twitter-Profil | Zamantika Mersobahis Locabet

Angehefteter Tweet

pao@pppaaaooo·10 Mar

AgenticRL含め、LLMのAgenticな能力を高めるためのPostTrainingで具体やったこと・学びなどブログ3本分くらい詰め込んだ記事書きました！ Tool UseやDeep Researchなどの強化学習まわりの情報は、まだまだ少ないと思うので、知見共有できればです！ tech-blog.abeja.asia/entry/geniac3-…

日本語

0

32

185

49.1K

pao@pppaaaooo·1d

人工知能オリンピックのコンペ設計の意図など話します！

国際人工知能オリンピック日本委員会(JOAI委員会)@JOAICommittee

【4/15開催】JOAI2026講評会、いったい何が聞けるの？中身を紹介します📣 第一部：JOAI委員会による総括・JOAI2026全体の振り返り・各問題に込められた狙い・「なぜこの問題を出したのか」を作問者本人が解説第二部：上位入賞者による解法紹介・トップ層は何を考え、どうコードを書いたのか・解法のアイデアと試行錯誤・本人の口から直接聞ける貴重な機会第三部：スポンサーセッション論文や記事では得られない「同世代トップの思考プロセス」を、生の言葉で聞けるイベントになっています✨ 日時：4/15（水）19:00〜21:00 形式：オンライン（Zoom）／参加費無料申込はこちら！ joai-commitee.connpass.com/event/389126/

日本語

0

1

12

1.3K

pao retweetet

うすしお@usu_poke·3d

各所で言われてるけどほまにこれ

日本語

89

8.7K

39.9K

1.2M

pao@pppaaaooo·5d

@ethylene_66 Kaggleだとホスト次第ですよねー。あくまで研究目的で使えるなら使えるでもいいとは思いますが、ホストから明言してほしいですよね。

日本語

0

2

425

エチレン@ethylene_66·5d

ここらへんは結局ホストがOKと言えばOKだしNGと言えばNGという認識今回はNVIDIAがホストだからprize圏のライセンスは厳し目に判断すると思っているが、ホストから一言欲しいところではある

日本語

1

0

11

2.1K

pao@pppaaaooo·5d

@tetsuro731 お疲れ様でした！

日本語

1

0

1

5.4K

テッツォ@Data Scientist@tetsuro731·5d

最終出社でした。 3年間データサイエンティストとしていろんなことをやらせて貰いました。明日から1ヶ月有給消化します。感謝！

日本語

18

17

1.8K

300.7K

pao@pppaaaooo·6d

@YYama0 OpenAIと競合するものにあたるか？みたいな規約なので、競合に当たらない研究と組織で判断できれば、、というところでしょうか。研究だとビジネスよりはマシだと思いますが分野や内容で競合度合い変わりそうなので、難しそうですね。。

日本語

0

1

4

1.4K

yyama@YYama0·6d

@pppaaaooo 例えばOpenAIの規約だと、研究ならOKとは明記されてなかったと思うのですが(ダメとも書いてなさそう)、こういう場合は問題なしという解釈が一般的ということでしょうか？モデルライセンスはたまに商用OKのものもあり、ちょっとビビります…笑

日本語

1

0

1

537

yyama@YYama0·6d

研究では非常によく行われているけど、一体どういう整理なのか未だによくわからない… GPTとか競合モデルの開発は規約上NGだと思うけど、reasoningモデル化にGPTに学習データの整形させました…みたいな。モデルも公開されてることが多いけど、研究目的だから競合しないという考え？

pao@pppaaaooo

KaggleのLLM系コンペ、この辺曖昧な印象あって困る。商用LLM側の規約は業務だとほぼほぼ引っかかるけどKaggleだと微妙なこと多いし、コンペ毎に明記して欲しい。。過去コンペのソリューション見てるとOKなケースも多くあるけど実際どうなんだろう

日本語

1

2

33

11.8K

pao@pppaaaooo·6d

KaggleのLLM系コンペ、この辺曖昧な印象あって困る。商用LLM側の規約は業務だとほぼほぼ引っかかるけどKaggleだと微妙なこと多いし、コンペ毎に明記して欲しい。。過去コンペのソリューション見てるとOKなケースも多くあるけど実際どうなんだろう

エチレン@ethylene_66

Nemotronコンペ眺めてみたら、public notebook 上位がみんな Gemini-2.0-flash の蒸留を行っており横転

日本語

0

2

77

25.7K

pao retweetet

Odashi@odashi_t·5 Nis

LlamaやQwenはランタイムやチューニングの仕組みが非常に整備されており、開発者サイドでもユーザサイドでも開発運用コストを抑えることができるし、コミュニティの成果物も活用しやすいです。こういったエコシステム側の都合を無視できるのは自分自身で運用するクローズドモデルだけだと思います。

日本語

0

11

45

5.2K

pao@pppaaaooo·4 Nis

アーキテクチャをメジャーどころ使ってくれてるおかげで、既存ライブラリで扱いやすいのも助かる

日本語

0

10

1.2K

pao@pppaaaooo·4 Nis

事前学習はやっぱ10〜20T必要だよなぁというところを示してくれた意味でもllm-jp-4は凄く価値あるし、何よりライセンス確認の上のフル公開がすばら

日本語

1

11

169

14.5K

pao@pppaaaooo·4 Nis

@shunk031 ですよねw クレイジーソルトは危険そうですw

日本語

0

88

しゅんけー「📕Pythonで学ぶ画像生成」発売中！@shunk031·4 Nis

@pppaaaooo めっっちゃわかります、まだ自我が残っていたのでストップできました…

日本語

1

0

2

420

pao@pppaaaooo·4 Nis

コーラ好きとして同じく試してみたら、永久にもう一口コーラ飲みたくなって危険だった😇

しゅんけー「📕Pythonで学ぶ画像生成」発売中！@shunk031

コーラとピーナッツの組み合わせのツイートが流れてきてたので試してみた！塩味が重要ってどこかで見たのでクレイジーソルト塩ナッツゆず風味を選んでみた。キンキンに冷えたグラスも用意したぜ。さて……… ………えっ美味いな！？

日本語

1

9

3.1K

pao retweetet

国際人工知能オリンピック日本委員会(JOAI委員会)@JOAICommittee·3 Nis

📢 JOAI2026講評会を開催します！上位入賞者はどんな解法で挑んだのか？ JOAI委員会が語る出題の狙いとは？三部構成でお届けします👇 🔹 第一部：JOAI委員会による公式講評　出題意図や求められた力を解説 🔹 第二部：上位入賞者による解法紹介　高得点者のリアルな戦略と工夫を公開 🔹 第三部：スポンサーセッション(詳細未定) 　AIの現場とキャリアの可能性を紹介【こんな人におすすめ】 ✅ JOAI2026に参加して振り返りたい人 ✅ 上位者の解法や学習法を知りたい人 ✅ 来年のJOAI参加を考えている中高生・高専生 ✅ AIコンペや機械学習に興味がある人来年の参加を考えている人も大歓迎！ ▶ 申込はConnpassから #JOAI2026 #IOAI #人工知能オリンピック

日本語

1

2

10

8.7K

pao@pppaaaooo·3 Nis

自動翻訳により、海外からGemma4の情報がめっちゃ入ってきてありがたい一方、hogehogeより低い/高いの情報がより錯綜しているw

日本語

0

1

662

pao@pppaaaooo·31 Mar

そういえば今週の頭にポケパーク行きましたポケモン好きにはたまらない場所でした！妻と子供のチケット外れて1人だったことだけが何ともでした笑

日本語

0

19

730

pao retweetet

Darragh@gonedarragh·27 Mar

Full writeup — skills breakdown, what worked, what didn't, and why I spent more time looking at the CLAUDE.md than code. darragh.bearblog.dev/i-stopped-codi…

English

4

12

81

6.2K

pao@pppaaaooo·31 Mar

@alfredplpl おお！お疲れ様でした！！

日本語

1

0

1

1.2K

あるふ@alfredplpl·31 Mar

お世話になりました

日本語

9

2

142

18.2K

pao@pppaaaooo·31 Mar

@shoetsu_sato おぉ！私も同じ感想でした笑うちはマルチホップ作ったのはWikipediaだけでe-Govは普通のQAだったので、e-Govならではのところで参考になりました！また機会あれば情報交換させてくださいー！

日本語

0

1

95

ではないです@shoetsu_sato·31 Mar

@pppaaaooo （ELYZAで担当していたものです…）そちらの記事拝見した時にe-Gov使ったマルチホップQAという所まで同じだったのを見た時まじか丸かぶりした〜＆でもやってること間違ってなさそうでちょっと安心、という感じになっていました…笑

日本語

1

0

2

165

pao@pppaaaooo·31 Mar

RLのためのマルチホップQA作るのしんどいの分かりみ e-Govに行き着くところ同じで謎に安心しました笑

ELYZA, Inc.@ELYZA_inc

【お知らせ】 LLMのツール利用能力向上に向けたAgentic RLの取り組みの結果、ベースモデルから大幅な性能向上を達成しました。詳細な取り組み内容に関するテックブログを公開します。 ■テックブログ zenn.dev/elyza/articles… 本取り組みでは、LLMに単にツールを呼ばせるのではなく、必要な根拠に到達するための探索を、適切な深さまで続け、適切なタイミングで打ち切る行動能力そのものをRL（強化学習）で改善することを目指しました。題材として、法令文章を用いたマルチホップ・マルチドキュメントQAを設計し、検索ツールで複数の文章を参照することで解くことを想定した高難易度のタスクを構築しました。これは、モデル自身の内部知識を問うというよりも、有限の文章プールから必要な根拠を探し出して回答するという、企業内や閉域環境で重要となる設定を意識したものです。学習にはDAPOを使い、Qwen3-32B/8Bのベースモデルに対して、検索クエリの生成・文書の取得・探索停止判断まで含めたLLM Agentの行動を最適化しました。モデルの規模感については、検証段階での学習しやすさを意識したものですが、コストをはじめとした実運用面でも有利となります。結果として、構築した評価セット上でベースモデルからの明確な改善を確認し、Qwen3-32BベースのモデルではGPT-5.2に匹敵する性能を達成しました。加えて、平均ツール利用回数や根拠文章への到達率の観点でも改善が見られ、「検索して読む」過程そのものが改善されました。また、out-of-domainの評価でもベースモデルからの性能向上が見られ、単なる法令知識の記憶による性能向上ではなく、より一般的なツール利用行動の改善に繋がっている可能性が示されました。学習・評価に用いたELYZA-MuLQ (ELYZA Multi-document Legal QA) の評価データ、及び法令文章の文章プールについては近日公開予定です。小型〜中規模モデルで、高性能かつ実用的なLLM Agentを作ることに関心のある方に、ぜひ読んでいただきたい内容です。

日本語

1

19

2.5K

pao@pppaaaooo·28 Mar

Nemotoronコンペ、A6000だと厳しいらしいので大人しくぽこあポケモン頑張ります！

日本語

0

25

3.2K

pao

Entdecken