pao

8.7K posts

pao

pao

@pppaaaooo

Kaggle Grandmasterだったり、atmaCupとかkaggle days championship得意だったり、LLM開発してたり、麻雀好きだったり。息子が可愛すぎてすばら!

名古屋 Se unió Ocak 2010
1.4K Siguiendo4.1K Seguidores
Tweet fijado
pao
pao@pppaaaooo·
AgenticRL含め、LLMのAgenticな能力を高めるためのPostTrainingで具体やったこと・学びなどブログ3本分くらい詰め込んだ記事書きました! Tool UseやDeep Researchなどの強化学習まわりの情報は、まだまだ少ないと思うので、知見共有できればです! tech-blog.abeja.asia/entry/geniac3-…
日本語
0
32
185
49.1K
pao retuiteado
うすしお
うすしお@usu_poke·
各所で言われてるけどほまにこれ
うすしお tweet media
日本語
89
8.7K
39.9K
1.2M
pao
pao@pppaaaooo·
@ethylene_66 Kaggleだとホスト次第ですよねー。あくまで研究目的で使えるなら使えるでもいいとは思いますが、ホストから明言してほしいですよね。
日本語
0
0
2
425
エチレン
エチレン@ethylene_66·
ここらへんは結局ホストがOKと言えばOKだしNGと言えばNGという認識 今回はNVIDIAがホストだからprize圏のライセンスは厳し目に判断すると思っているが、ホストから一言欲しいところではある
日本語
1
0
11
2.1K
pao
pao@pppaaaooo·
@tetsuro731 お疲れ様でした!
日本語
1
0
1
5.4K
テッツォ@Data Scientist
最終出社でした。 3年間データサイエンティストとしていろんなことをやらせて貰いました。 明日から1ヶ月有給消化します。 感謝!
テッツォ@Data Scientist tweet media
日本語
18
17
1.8K
300.7K
pao
pao@pppaaaooo·
@YYama0 OpenAIと競合するものにあたるか?みたいな規約なので、競合に当たらない研究と組織で判断できれば、、というところでしょうか。 研究だとビジネスよりはマシだと思いますが分野や内容で競合度合い変わりそうなので、難しそうですね。。
日本語
0
1
4
1.4K
yyama
yyama@YYama0·
@pppaaaooo 例えばOpenAIの規約だと、研究ならOKとは明記されてなかったと思うのですが(ダメとも書いてなさそう)、こういう場合は問題なしという解釈が一般的ということでしょうか? モデルライセンスはたまに商用OKのものもあり、ちょっとビビります…笑
日本語
1
0
1
537
yyama
yyama@YYama0·
研究では非常によく行われているけど、一体どういう整理なのか未だによくわからない… GPTとか競合モデルの開発は規約上NGだと思うけど、reasoningモデル化にGPTに学習データの整形させました…みたいな。モデルも公開されてることが多いけど、研究目的だから競合しないという考え?
pao@pppaaaooo

KaggleのLLM系コンペ、この辺曖昧な印象あって困る。 商用LLM側の規約は業務だとほぼほぼ引っかかるけどKaggleだと微妙なこと多いし、コンペ毎に明記して欲しい。。 過去コンペのソリューション見てるとOKなケースも多くあるけど実際どうなんだろう

日本語
1
2
33
11.8K
pao
pao@pppaaaooo·
KaggleのLLM系コンペ、この辺曖昧な印象あって困る。 商用LLM側の規約は業務だとほぼほぼ引っかかるけどKaggleだと微妙なこと多いし、コンペ毎に明記して欲しい。。 過去コンペのソリューション見てるとOKなケースも多くあるけど実際どうなんだろう
エチレン@ethylene_66

Nemotronコンペ眺めてみたら、public notebook 上位がみんな Gemini-2.0-flash の蒸留を行っており横転

日本語
0
2
77
25.7K
pao retuiteado
Odashi
Odashi@odashi_t·
LlamaやQwenはランタイムやチューニングの仕組みが非常に整備されており、開発者サイドでもユーザサイドでも開発運用コストを抑えることができるし、コミュニティの成果物も活用しやすいです。こういったエコシステム側の都合を無視できるのは自分自身で運用するクローズドモデルだけだと思います。
日本語
0
11
45
5.2K
pao
pao@pppaaaooo·
アーキテクチャをメジャーどころ使ってくれてるおかげで、既存ライブラリで扱いやすいのも助かる
日本語
0
0
10
1.2K
pao
pao@pppaaaooo·
事前学習はやっぱ10〜20T必要だよなぁというところを示してくれた意味でもllm-jp-4は凄く価値あるし、何よりライセンス確認の上のフル公開がすばら
日本語
1
11
169
14.5K
pao
pao@pppaaaooo·
@shunk031 ですよねw クレイジーソルトは危険そうですw
日本語
0
0
0
88
pao retuiteado
国際人工知能オリンピック日本委員会(JOAI委員会)
📢 JOAI2026講評会を開催します! 上位入賞者はどんな解法で挑んだのか? JOAI委員会が語る出題の狙いとは? 三部構成でお届けします👇 🔹 第一部:JOAI委員会による公式講評  出題意図や求められた力を解説 🔹 第二部:上位入賞者による解法紹介  高得点者のリアルな戦略と工夫を公開 🔹 第三部:スポンサーセッション(詳細未定)  AIの現場とキャリアの可能性を紹介 【こんな人におすすめ】 ✅ JOAI2026に参加して振り返りたい人 ✅ 上位者の解法や学習法を知りたい人 ✅ 来年のJOAI参加を考えている中高生・高専生 ✅ AIコンペや機械学習に興味がある人 来年の参加を考えている人も大歓迎! ▶ 申込はConnpassから #JOAI2026 #IOAI #人工知能オリンピック
日本語
1
2
10
8.7K
pao
pao@pppaaaooo·
自動翻訳により、海外からGemma4の情報がめっちゃ入ってきてありがたい一方、hogehogeより低い/高いの情報がより錯綜しているw
日本語
0
0
1
662
pao
pao@pppaaaooo·
そういえば今週の頭にポケパーク行きました ポケモン好きにはたまらない場所でした! 妻と子供のチケット外れて1人だったことだけが何ともでした笑
pao tweet media
日本語
0
0
19
730
pao retuiteado
Darragh
Darragh@gonedarragh·
Full writeup — skills breakdown, what worked, what didn't, and why I spent more time looking at the CLAUDE.md than code. darragh.bearblog.dev/i-stopped-codi…
English
4
12
81
6.2K
pao
pao@pppaaaooo·
@alfredplpl おお!お疲れ様でした!!
日本語
1
0
1
1.2K
あるふ
あるふ@alfredplpl·
お世話になりました
あるふ tweet media
日本語
9
2
142
18.2K
pao
pao@pppaaaooo·
@shoetsu_sato おぉ!私も同じ感想でした笑 うちはマルチホップ作ったのはWikipediaだけでe-Govは普通のQAだったので、e-Govならではのところで参考になりました! また機会あれば情報交換させてくださいー!
日本語
0
0
1
95
ではないです
ではないです@shoetsu_sato·
@pppaaaooo (ELYZAで担当していたものです…)そちらの記事拝見した時にe-Gov使ったマルチホップQAという所まで同じだったのを見た時まじか丸かぶりした〜&でもやってること間違ってなさそうでちょっと安心、という感じになっていました…笑
日本語
1
0
2
165
pao
pao@pppaaaooo·
RLのためのマルチホップQA作るのしんどいの分かりみ e-Govに行き着くところ同じで謎に安心しました笑
ELYZA, Inc.@ELYZA_inc

【お知らせ】 LLMのツール利用能力向上に向けたAgentic RLの取り組みの結果、ベースモデルから大幅な性能向上を達成しました。詳細な取り組み内容に関するテックブログを公開します。 ■テックブログ zenn.dev/elyza/articles… 本取り組みでは、LLMに単にツールを呼ばせるのではなく、必要な根拠に到達するための探索を、適切な深さまで続け、適切なタイミングで打ち切る行動能力そのものをRL(強化学習)で改善することを目指しました。 題材として、法令文章を用いたマルチホップ・マルチドキュメントQAを設計し、検索ツールで複数の文章を参照することで解くことを想定した高難易度のタスクを構築しました。これは、モデル自身の内部知識を問うというよりも、有限の文章プールから必要な根拠を探し出して回答するという、企業内や閉域環境で重要となる設定を意識したものです。 学習にはDAPOを使い、Qwen3-32B/8Bのベースモデルに対して、検索クエリの生成・文書の取得・探索停止判断まで含めたLLM Agentの行動を最適化しました。モデルの規模感については、検証段階での学習しやすさを意識したものですが、コストをはじめとした実運用面でも有利となります。 結果として、構築した評価セット上でベースモデルからの明確な改善を確認し、Qwen3-32BベースのモデルではGPT-5.2に匹敵する性能を達成しました。加えて、平均ツール利用回数や根拠文章への到達率の観点でも改善が見られ、「検索して読む」過程そのものが改善されました。 また、out-of-domainの評価でもベースモデルからの性能向上が見られ、単なる法令知識の記憶による性能向上ではなく、より一般的なツール利用行動の改善に繋がっている可能性が示されました。 学習・評価に用いたELYZA-MuLQ (ELYZA Multi-document Legal QA) の評価データ、及び法令文章の文章プールについては近日公開予定です。 小型〜中規模モデルで、高性能かつ実用的なLLM Agentを作ることに関心のある方に、ぜひ読んでいただきたい内容です。

日本語
1
1
19
2.5K
pao
pao@pppaaaooo·
Nemotoronコンペ、A6000だと厳しいらしいので大人しく ぽこあポケモン頑張ります!
日本語
0
0
25
3.2K