AIDB

8.9K posts

AIDB banner
AIDB

AIDB

@ai_database

日々大量に公開されるAI分野の論文の中から、重要かつ興味深い論文のみを厳選して取り上げています。ウェブサイトでは深掘り記事のほか、AI特化の論文DB、エージェントスキルライブラリ、論文リサーチAIエージェントを提供しています。なお、記事や投稿は人の手で書いています。2019年から運営しています。

日本 東京 Katılım Nisan 2019
111 Takip Edilen44.7K Takipçiler
Sabitlenmiş Tweet
AIDB
AIDB@ai_database·
3/31(火)夜、AIDB主催フィジカルAI勉強会を六本木メルカリで開催します! 来場予約受付開始しました。先着100名、無料です。 コンテンツ 🤖Reachy miniを動かして触れ合う 📚フィジカルAI最新論文キャッチアップ 🗣️スペシャルゲストトーク ほか 登壇者も募集中です! aidb.connpass.com/event/385624/
日本語
7
19
98
79.2K
AIDB
AIDB@ai_database·
関連記事3:単一のLLMから2つのエージェントを作成し自分(たち)で改善させる手法が有効 ai-data-base.com/archives/82124
日本語
0
1
3
1.4K
AIDB
AIDB@ai_database·
「AIエージェントに、失敗からすぐ学ぶ力と、暇なときにじっくり鍛え直す力を両方持たせると、実運用の中で進化し続けられる」という主張。 ノースカロライナ大、カーネギーメロン大、カリフォルニア大、UCバークレーの研究者らによる報告によると、エージェントの成長は二段構えにすべしとのこと。 ①失敗したときに「次はこう動くべき」というルールを文章の形で即座に追加する ②ユーザーが寝ている時間や操作していない時間に重み更新まで行う エージェントはその場でも賢くなるが、空き時間にさらに地力も上げるという良いところどりの考え方。 実験結果としては、性能がやや弱いモデルで効果が大きく、正答率がかなり上がり、ファイル作業の完全達成率も大きく伸びたと報告しています。 スキル追加だけでも改善するものの、さらに重み更新まで入れると一段と伸びる、というのが著者たちの結論です。 また、そうした実装を行えるソフトウェアも実際にリリースしています。
AIDB tweet media
日本語
4
12
77
8.3K
AIDB
AIDB@ai_database·
関連記事:日常の会話をそのまま学習データに変換 OpenClawでのパーソナルAIエージェントを継続的に最適化するフレームワーク ai-data-base.com/archives/104956
日本語
0
0
2
1.2K
AIDB retweetledi
AIDB
AIDB@ai_database·
LLMにおいてモデル本来のコンテキストウィンドウを大幅に超えた1,000万トークンまで性能を維持したまま処理可能にできると判明。 プロンプトを”Python環境の変数”として扱うようにするという奇抜ながら明快な発想。効果は実証済みです。 ai-data-base.com/archives/100187 本記事では、この手法の仕組みとシステムプロンプトの具体例を詳しく見ていきます。なぜそれほどのキャパシティが生まれるのか。
日本語
3
38
276
36.4K
AIDB
AIDB@ai_database·
LLMに「このタスク、どのくらいやる気ある?」と聞いてみると、モチベーションが高いと報告したタスクほど、実際にアウトプットの質が高くなり、応答も長くなるそうです。 また、2つのタスクから1つ選ぶ場面では高モチベーションの方を選ぶとのこと。 何度聞いてもほぼ同じで、タスクの種類ごとにきれいに差がついています。 こうしたモチベーションの構造は心理学で知られている「やりたい(興味・価値・挑戦)」と「できる(習熟度・恐怖の低さ)」の2軸で説明でき、人間のモチベーション研究とほぼ同じ枠組みで分析できると考えられています。 ただし、人間が「このタスク、AIならこのくらいのモチベーションだろう」という予測をしてもズレることが実験で分かりました。 なお、著者らは慎重で、これをもって「LLMに意識や内面がある」とは主張していません。あくまで行動レベルで「モチベーションがあるかのように振る舞っている」という立場です。 なお実験には最新バージョンではないモデルを使用している点にもやや注意。
AIDB tweet media
日本語
6
33
138
13.7K
AIDB retweetledi
AIDB
AIDB@ai_database·
人は、AIでコードを書く「Vibe Coding」を使いながらコーディングの知識や技能が身につくのか?を調べた実証研究で、興味深い結果が出ています。 AIを使いながらの学習で「理解できた」と自己評価した者ほど、AIなしの課題でパフォーマンスが大きく低下。 ai-data-base.com/archives/100698 本記事では、本人の学習効率にとってVibe Codingが逆効果になる段階の見極め方を詳しく見ていきます。 Vibe Codingを学習の武器にしっかり変える導入戦略とはどんなものか。
日本語
6
108
629
94.1K
AIDB
AIDB@ai_database·
AIエージェントが1ステップ動くたびに「いま危ないことが起きていないか」を自然言語ルールで確認し、問題を検出したら封じ込め→復旧→ガードレールルール生成まで自動で走らせる...という対策が極めて有効という話。 ai-data-base.com/archives/104520 エージェントの主な安全対策は基本的に予防一辺倒で、事故が起きた後どうするかはほぼ空白地帯のため、ここまでやることを検討しても良いかもしれません。
日本語
1
7
25
4.8K
AIDB
AIDB@ai_database·
関連記事:LLMエージェントに人間のような欲求を持たせてシミュレーションする手法 ai-data-base.com/archives/80804
日本語
0
0
3
2.2K
AIDB
AIDB@ai_database·
LLMエージェントを何十体も並べてチーム作業させると「コミュニケーションはプロ級なのに計算は全然できなくなる」という結果。50体以上の大規模チームでは難しいタスクの成功率がゼロ、1体に全データを渡したほうがマシという逆転現象まで起きています。 ai-data-base.com/archives/104562 エージェントたちは誰に何を送ればいいかを自力で見抜き、タスクに合った会話パターンを編み出すこともできます。そのように「情報を集める」までは見事にこなすのに、「集めた情報を正しくまとめる」段階で崩壊します。
日本語
3
25
84
8.3K
AIDB
AIDB@ai_database·
この度、ポケモンが本格的なAIベンチマークとして整備されました。バトルとRTA(スピードラン)の二軸で測れるのは「不完全情報下で相手と戦略的に渡り合う力」能力とのこと。 プリンストン大やGoogle DeepMindなどの研究チームが主導して発表。 最近、最先端AIでポケモンにチャレンジすることがAI研究の世界で流行になっており、極めて真面目に取り組まれています。 そんな中、今回作られた「PokéAgent Challenge」は共通のインフラと評価基準、そして2,000万件を超える対戦データを整え、すでにNeurIPS 2025(AI分野のトップ国際会議)の公式コンペティションとして100チーム以上が参加する大規模な検証の場で使用されました。 コンペの結果では、RTA(今回は最初のジムリーダー撃破までの速さ勝負)優勝チームは”LLMが「大局的な判断」を担い、強化学習で「実行の最適化」を行う”という戦略で圧勝しました。 なお、大変おもしろいことに、ポケモンバトルの成績は定番のベンチマーク成績とあまり相関しないようです。コーディングや数学で高得点のモデルがバトルで崩壊し、その逆も起きました。 ポケモンは、今の評価体系ではまったく測れない能力を測定しているのです。
AIDB tweet media
日本語
8
333
1.1K
120.7K