Mujirushi

753 posts

Mujirushi

Mujirushi

@Muji___rushi

データサイエンティスト | Kaggle Master https://t.co/AMr1JEU8u9

Katılım Ocak 2020
806 Takip Edilen996 Takipçiler
Mujirushi
Mujirushi@Muji___rushi·
以下の点が重要らしい ・独立性の維持: エージェントが安易に同調しないよう、意図的に独立した思考プロセスを確保 ・「反対」させる: あえて意見の不一致や議論を推奨するメカニズムを組み込む ・疎な通信: 全員で話し合うのではなく、あえて情報の伝達を制限し、個別の探索時間を長く取る
Mujirushi tweet media
日本語
0
0
0
72
Mujirushi
Mujirushi@Muji___rushi·
多様性崩壊の3つ ・Model Intelligence: 強いモデルほど1個ずつの出力品質は高いが、意味空間の広がりはあまり増えない ・Agent Cognition:役割を与えても、権威が強いと独立批判より同調が起きやすい ・System Dynamics:エージェント数を増やしても多様性は線形に増えず、通信を密にすると早期に合意
Mujirushi tweet mediaMujirushi tweet media
日本語
1
0
0
80
Mujirushi
Mujirushi@Muji___rushi·
LLMを複数エージェントで議論させれば発想が広がるとは限らず、構造次第で思考の収束(多様性の崩壊:diversity collapse)が起きることを示した論文 エージェント間の相互作用が、個々のエージェントが持つ探索空間を不本意に収縮させる「構造的結合」が起因してるという主張 arxiv.org/pdf/2604.18005
Mujirushi tweet media
日本語
1
1
15
654
Mujirushi
Mujirushi@Muji___rushi·
MLE-Benchで以前に1位になったNeoの開発に関する記事。 "Kaggle Grandmaster as a Service"というパワーワードも登場してる。 hackernoon.com/the-engineer-i…
日本語
0
1
16
1K
Mujirushi
Mujirushi@Muji___rushi·
言語で不利とされた連続拡散モデルを単語直接予測と言語向けノイズ設計で強化し、離散拡散モデルに匹敵すると、主張するLangFlow 学習では、単語埋め込みにノイズを加えて元単語を直接予測。生成では、一様なノイズ設計をやめて重要ノイズ帯に計算を集中しつつ復元する。 arxiv.org/pdf/2604.11748
Mujirushi tweet media
日本語
1
0
23
1.6K
Mujirushi
Mujirushi@Muji___rushi·
推論LLMのRLで正解率だけを追うと多様性が失われやすい問題に対し、「良い答えの分布」を学ばせるLearning Advantage Distribution for Reasoning(LAD) GRPOは高advantage応答を増やす更新(単一モードに潰れやすい)、FlowRLは報酬分布への整合、LADはadvantage分布への整合 arxiv.org/pdf/2602.20132
Mujirushi tweet media
日本語
0
3
59
3.4K
Mujirushi
Mujirushi@Muji___rushi·
Snapshot Confidence Remaskは、トークンが生成された確信度を記録しておき、自信の低い箇所だけを次段でマスク。 Mix-Scale Training では、大小のblock sizeを混ぜて訓練により大小両方の文脈に対応。 結果、既存の block diffusion 系よりperplexity改善(ただし、AR モデルには及ばない)
Mujirushi tweet media
日本語
0
0
0
297
Mujirushi
Mujirushi@Muji___rushi·
まず小さな単位で高速に下書きを作り、次に大きな文脈を見ながら必要な箇所だけ書き直すDiffusion In Diffusion block diffusion の速いけれど前から順にブロックを確定していくため「先に書いた部分を後で直せない」「長距離の一貫性が崩れやすい」という課題に対応 arxiv.org/pdf/2601.13599
Mujirushi tweet media
日本語
1
1
15
687
Mujirushi
Mujirushi@Muji___rushi·
L2T用データと生テキストの関係で2条件を作り、L2Tの効果は単にデータ量が増えただけでないことを担保した上で、Raw ベースラインよりスコア改善。学習初期の伸びも速い。モデルサイズは500M と 1B Disjoint: 生テキスト用とL2T生成用の元文書が別 Shared: 同じ元文書から生テキストとL2Tの両方を作る
Mujirushi tweet mediaMujirushi tweet media
日本語
0
0
0
283
Mujirushi
Mujirushi@Muji___rushi·
事前学習においてNext Token Prediction だけでなく、学習データから自動生成した“言語学習タスク”も混ぜて事前学習するLanguage Learning Tasks(L2T)提案 元の事前学習データから、文字数を数える、マスクされた文字の復元、typoを直す、などの14種類の言語タスクを作成 arxiv.org/pdf/2601.03448
Mujirushi tweet mediaMujirushi tweet media
日本語
1
3
40
3.7K
Mujirushi
Mujirushi@Muji___rushi·
2段階適応蒸留の提案 stage1. Adaptive MAS Distiller MASを分解してツールは常に残す,知識は命令でなく参照的に残す,強制的なパイプラインや調整機構は基本的に捨てる,タスク分解ヒントだけ F に応じて残す、など stage2. Skill Iterator(低Fで推奨) Explore/Main/Analyzer/Runnerでskillを反復改善
Mujirushi tweet mediaMujirushi tweet media
日本語
0
0
1
243
Mujirushi
Mujirushi@Muji___rushi·
複数回の実行で「出力 & 点数の対応関係」を測るMetric Freedom(F) 低F の世界(出力少し変わると点数も大きく変わる)は、"正解への通路が細い"ので手順や知識で強く誘導した方が有利、高F の世界(異なる出力でも点数変わりずらい)は"そこそこ良い解がたくさんある"ので手順固定すると探索自由を奪う
日本語
1
0
1
264
Mujirushi
Mujirushi@Muji___rushi·
マルチエージェントの知見を単一エージェントにSkill蒸留(Weight DistillationではなくSkill Distillation)すると、どんな時に効果があるのか?を示した論文 Skill蒸留の有効性は、タスクそのものではなく、評価指標の性質で決まる、という主張。 arxiv.org/pdf/2604.01608
日本語
1
2
18
1.2K
Mujirushi
Mujirushi@Muji___rushi·
@sugupoko ぼくも同じようなこと思いました! AI利用による恩恵だけでなく、認知しづらい弊害の検知や、底上げの仕組みが必要なんだろうな的な(ムズそう)
日本語
0
0
1
41
すぐーさん
すぐーさん@sugupoko·
@Muji___rushi なるほど。 丸投げじゃなくて、組織としてちゃんとスキルとか整備してかなきゃ成功率上がらなそうですね(と、理解したが間違ってるかも)
日本語
1
0
1
159
Mujirushi
Mujirushi@Muji___rushi·
Task Horizonのわかりやすい記事で勉強になった。 AI利用による「生産性プラセボ」効果、気付かずに起きてるかもだから気をつけよう。 >大事なのは、人間の感覚と実際のパフォーマンスの間にはまだ大きなギャップがある ということを認識した上で、指数関数的な成長トレンドを読み解くことです。
株式会社AI Shift@AIShift_inc

【AI Shift公式note】 本日はMLエンジニアの戸田が執筆しております! AIが数時間自律して働く? AIエージェントの進化と「AI Task Horizon」 ぜひご一読ください! note.com/ai_shift/n/n28…

日本語
1
0
7
1.1K
Mujirushi
Mujirushi@Muji___rushi·
数学、医療QA、法務、コード生成、EC、クラウド障害の原因分析など、幅広い領域で行われ、多くのデータセットで AutoAdapt が AutoMLAgent、MLCopilot、HF Defaults、DS-Agent を上回った
Mujirushi tweet media
日本語
0
0
0
239
Mujirushi
Mujirushi@Muji___rushi·
AutoadaptだけSRなどのスコアが高いのが気になるけど、再現性・公平性のための配慮もしてるらしい(他ベースラインにも AutoAdapt の ACG、best-practice KB、SFT/DPO/RAG テンプレートを与えて、成功率を実質 100% にそろえて実行)
Mujirushi tweet media
日本語
1
0
0
282
Mujirushi
Mujirushi@Muji___rushi·
専門領域にLLMを適用する際に、RAG or SFT、LoRAを使うか、学習率やバッチサイズはどうするか、環境制約(GPU、レイテンシ、モデルサイズ上限など)を満たす構成をどうするかなどの決定を自動化するAutoAdapt提案 LLM特化でのドメインへの技術適用を自動化するイメージっぽい arxiv.org/pdf/2603.08181
Mujirushi tweet media
日本語
1
16
137
8.5K