DLHacks

888 posts

DLHacks banner
DLHacks

DLHacks

@DL_Hacks

DeepLearningに関する勉強会(輪読、実装会)。 東京大学松尾豊研究室、Deep Learning JPのメンバーが中心に運営しています。DeepLearningのニュースや論文・実装などをツイートします。https://t.co/FaeJqAOg8X

Katılım Temmuz 2017
2.6K Takip Edilen26.9K Takipçiler
DLHacks
DLHacks@DL_Hacks·
LeWorldModelは画像から直接学習する新しいJEPA型世界モデル。予測損失+SIGReg正則化の2項のみで安定訓練し、15Mパラメータ・1GPUで学習可能。基盤モデル系より最大48倍速い計画を実現し、多様な制御タスクで高性能。 docswell.com/s/DeepLearning…
日本語
0
13
110
6.9K
DLHacks
DLHacks@DL_Hacks·
PlayWorldは、人手デモに頼らずロボットの自己遊びから多様な接触経験を集め、高忠実度な動画ワールドモデルを学習することで、物体操作の物理予測、失敗予測、方策評価、実世界での強化学習性能を大きく向上させる。docswell.com/s/DeepLearning…
日本語
0
0
25
2.6K
DLHacks
DLHacks@DL_Hacks·
Physical Intelligenceの新VLA.言語・メタデータ・サブゴール画像による多様なプロンプト条件付けで訓練され,単一モデルで専門モデル級のdexterous操作,ゼロショットのクロス身体転移,言語コーチングによる未知タスク遂行を実現する. docswell.com/s/DeepLearning…
日本語
0
2
30
2.7K
DLHacks
DLHacks@DL_Hacks·
長期タスクのためのstage-awareな報酬モデルSARMの提案. subtask predictionを入れることで長期タスクに対応.報酬を利用したReward-Aligned BCで大幅にを性能改善 docswell.com/s/DeepLearning…
日本語
0
0
13
1.8K
DLHacks
DLHacks@DL_Hacks·
少量コーパス(1.3M)から合成データ(455M)を生成しLLMを継続事前学習する手法EntiGraph。RAGと併用でRAG単体を上回り、両者は相補的。学習曲線を混合指数関数で理論解析する点も秀逸で、ICLR2025 Oral採択論文。実応用でも使える内容です。 docswell.com/s/DeepLearning…
日本語
1
9
69
6.4K
DLHacks
DLHacks@DL_Hacks·
マルチエージェント討論(MAD)による性能向上はディベートよりも多数決による寄与が大きい.マルチエージェントLLMの研究の焦点は「もっと話させる」から「何を・どう共有するか」へ. docswell.com/s/DeepLearning…
日本語
0
2
10
2.5K
DLHacks
DLHacks@DL_Hacks·
自己回帰モデルの内部には時間的抽象表現が自発的に生まれており、それを教師なしで抽出・操作することで階層RLを行う。内部の抽象表現を用いて強化学習を行い、自己回帰モデルへ注入することで高次行動の切替を制御。通常のRLでは困難なスパース報酬タスクを解決。 docswell.com/s/DeepLearning…
日本語
0
3
25
2.7K
DLHacks
DLHacks@DL_Hacks·
ロボットの継続学習において、新スキル獲得に伴う破局的忘却が課題だが、大規模な事前学習済みVLAモデルは少量の経験再生データのみで忘却に強い耐性を示し、失われたように見える知識も迅速に回復可能であることを示した。 docswell.com/s/DeepLearning…
日本語
0
5
58
4.4K
DLHacks
DLHacks@DL_Hacks·
【松尾研Diffusion勉強会資料公開】 Google DeepMindの「Unified Latents」 latentを統一的に学習する新しい拡散モデル設計。 prior・decoderを統一的に訓練し、生成品質と計算効率を同時に改善。docswell.com/s/DeepLearning…
日本語
0
5
61
6.4K
DLHacks
DLHacks@DL_Hacks·
人間とLLMの帰納バイアスが言語形成に与える影響を参照ゲームで分析。人間同士、LLM同士、人間とLLMの対話を比較した結果、LLM向けに最適化された語彙は人間向けの語彙と異なる構造を示した。人間とLLMの相互作用により、人間に近い共有語彙が形成された。docswell.com/s/DeepLearning…
日本語
0
9
36
5K
DLHacks
DLHacks@DL_Hacks·
動作をalignmentとinteractionに分解し,両段階でretrieval-based policyを用いるMT3を提案した.1task-1demoの設定下で17時間のデータ収集をし,1,000tasksの教示できることを示した. docswell.com/s/DeepLearning…
日本語
0
0
1
2K
DLHacks
DLHacks@DL_Hacks·
カメラ軌道自体の情報量の多さに注目して、対照学習によってカメラ起動特徴量がtext特徴量空間と同じになるようにカメラ軌道encoderを学習。 複数のタスクを通して、カメラ起動encoderの有用性を検証。新しいモダリティとしてカメラ軌道の有用性を示唆する。 docswell.com/s/DeepLearning…
日本語
0
1
33
3.7K
DLHacks
DLHacks@DL_Hacks·
マルチプレイヤーの観測と行動を統合して学習することで、複数視点間で矛盾しない一貫した世界生成が可能であることが示された。さらに、従来の単一視点モデルでは破綻していた他者の行動の反映や環境変化、協調的な相互作用も同一世界として再現できる可能性を示した。docswell.com/s/DeepLearning…
日本語
0
0
6
1.9K
DLHacks
DLHacks@DL_Hacks·
ロボットマニピュレーションにおいて、未知環境で動作できるのであれば世界モデルを有するとし、現在のモデルを網羅的に整理する。汎用的で実用的なロボット向けた世界モデルには13の構成要素に分解した。現状どのモデルも全構成要素を満たすものはなく今後の方向性を示した。docswell.com/s/DeepLearning…
日本語
0
7
63
5.4K
DLHacks
DLHacks@DL_Hacks·
LLMの推論能力獲得前後でのweightの変化に基づき、重要モジュールを特定する方法を提案。推論能力がtransformerの出力射影に局在することを示したほか、出力射影モジュールのみ差し替えや学習によっても推論能力が獲得できることを示した。docswell.com/s/DeepLearning…
日本語
0
3
39
9.2K
DLHacks
DLHacks@DL_Hacks·
NVIDIAは、大規模な一人称動画から行動表現を抽出し、世界モデルの未来予測へ条件付けするDreamDojoを提案。物理一貫性の高い未来生成により、ロボット制御タスクの成功率向上を実証。自己教師的学習により行動ラベル不要でスケール可能な点も特徴。docswell.com/s/DeepLearning…
日本語
0
2
51
5K
DLHacks
DLHacks@DL_Hacks·
ロボット操作のための制御可能な多視点生成型ワールドモデルであるCtrl-Worldを開発しました。policy-in-the-loopの相互作用を正確にシミュレートし、汎用ロボットポリシーの評価と改良を可能にし、最終的に新しいタスクにおけるポリシーの成功率を44.7%向上させました。 docswell.com/s/DeepLearning…
日本語
0
0
9
2.3K
DLHacks
DLHacks@DL_Hacks·
推論モデルは内部で思考の社会(Society of Thought)を暗黙的にシミュレートすることによって推論能力を向上させているという仮説を包括的に検証。 docswell.com/s/DeepLearning…
日本語
0
3
16
2.9K
DLHacks
DLHacks@DL_Hacks·
ワールドモデルの潜在空間へAction、Proprio、Valueを埋め込むLatent Injectionを提案し、 構造変更なしでこれらを単一の拡散モデルとして統合学習した。ワールドモデルの物理事前知識とBest-of-N探索を活用して Sim/Real両環境のタスクでSOTAを達成した。docswell.com/s/DeepLearning…
日本語
0
7
68
5.2K