岩城祐作 | Algomatic

898 posts

岩城祐作 | Algomatic

岩城祐作 | Algomatic

@yukl_dev

ソフトウェアエンジニア🍻/ Azure Solutions Architect Expert / TypeScript, Python, Next.js, React, Terraform, LangChain / スクラム大好き / AI開発(エージェント, アバター) / お笑い芸人さんのレコメンド🗣️

Beigetreten Temmuz 2023
1.6K Folgt549 Follower
Angehefteter Tweet
岩城祐作 | Algomatic
岩城祐作 | Algomatic@yukl_dev·
現場で実際にぶつかった課題から見えてきた、 経営・現場・開発の温度差と、AIエージェント実装の考え方を書きました。 エンジニアに限らず、AIエージェント導入に関わる全ての方にとって何か役に立てば嬉しいです。 note.com/yusakuiwaki/n/…
日本語
3
41
378
264.3K
岩城祐作 | Algomatic retweetet
岩城祐作 | Algomatic retweetet
AIエージェントユーザー会(AIAU)
【リモートLT募集中!】 Google AI Meetup Osaka、新たにリモートLTも募集中! 『Google × AI』がテーマのLT&交流会。最新機能から実務までみんなで知見をシェア! 日時 : 3/23(月) 19:00 場所 : Sansan株式会社 (大阪) 詳細・申込 aiau.connpass.com/event/386555/
日本語
0
8
11
3.2K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
「AIのコードがリジェクトされるのは、質が低いからだ」という認識に一石を投じる論文が発表されました。 九州大学などの研究チームによる報告です。 実際に、開発現場ではAIが作成したプルリクエスト(PR)は、人間が書いたものよりもリジェクトされる確率が高いことが分かっています。 しかし同論文は、リジェクト率の高さが必ずしも「コードの欠陥」によるものではないと指摘しています。実際のデータを分析したところ、拒否されたAIのPRの約7割は、レビュアーからの明確なフィードバックがないまま「無言で閉じられている(理由不明)」ことが判明しました。 さらに、理由が判明しているケースを深掘りすると、主に以下のパターンで拒否されていることがわかっています。 ① 代替案の採用: AIのコードに欠陥があるわけではなく、他の開発者が提出した別の解決策が選ばれたケース。 ② エージェントの仕様による自動クローズ: DevinなどのAIが、一定期間反応がないPRを自ら取り下げたケース。 ③ 実験目的のPR: 最初から採用する気がなく、「AIの挙動を試しただけ」のテスト目的のPRが含まれているケース。 ④ 人間のAIへの不信感やレビューの限界: 「AI生成だから」と十分な確認なしに弾かれたり、AIからの変更提案が多すぎて人間がレビューを諦めたりするケース。 一般的に「AIの書くコードは不十分で脆弱性が多い」と指摘される傾向があります。 しかし、もし不当なリジェクトや人間のバイアスを排除し、AIの提案を正当に評価できたとしたら、プロジェクトにどのような影響をもたらすのでしょうか。 AIツールの導入効果を最大化するには、技術的な精度の向上だけでなく、AIの評価基準やレビュー体制を根本から見直していくべきなのかもしれません。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
4
27
89
20.3K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
AIエージェントの失敗原因を特定するためのフレームワークがMicrosoft Researchから発表されました。 「タスクが完了したか」という指標だけでは、AIエージェントの失敗を正確に特定できません。数十ステップに及ぶ長期的な行動、同じ入力でも結果が変わる再現性の低さ、さらに複数エージェント間でエラーが連鎖し、本当の原因が隠れるためです。どこで成功への道筋が途切れたのかを正確に捉える必要がありました。 今回提案された「AgentRx」は、ツールの仕様やシステムの運用ポリシーから制約を自動生成し、AIエージェントの行動をステップごとに検証して失敗の発生地点と原因を分析するフレームワークです。 具体的には、異なるエージェント環境のログを「Trajectory IR(統一された中間表現)」に変換した上で、ツールの仕様やシステムの運用ポリシーに基づく「Invariants(実行時に守るべき制約条件)」を自動生成します。 そして、ステップごとに制約条件に違反していないかをチェックし、違反の証拠を含む検証ログ(validation log)を生成します。最後に、このログをLLMが分析することで、最初に起きた「Critical Failure Step(タスクが成功できなくなる分岐点)」と失敗の根本原因を特定します。 この仕組みを導入した結果、LLMにエラーを推測させるベースライン手法と比較して、失敗箇所の特定精度が23.6%、根本原因の特定精度が22.9%向上することが確認されました。 条件違反の証拠を含む検証ログをAIに与えることで、失敗分析の精度が向上することを示しました。AIエージェントの信頼性を高める基盤技術になるかもしれません。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
1
20
157
14.3K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
LLMの強みである「言語による思考」を、回答生成ではなく探索アルゴリズムに組み込む研究が登場しました。 Appleの研究チームが発表した論文「Expanding LLM Agent Boundaries with Strategy-Guided Exploration」は、LLMエージェントの「強化学習(RL)」における探索の難しさを改善するアプローチを提案しています。 これまでのRLでは、コード生成やUI操作などの「行動」レベルで試行錯誤(探索)を行っていました。しかし行動空間が広く複雑なため、LLMはモデルが出力しやすい行動の周辺を試しやすく、難しいタスクでは新しい解法を見つけにくい課題がありました。 そこで本研究は、「SGE(Strategy-Guided Exploration:戦略主導の探索)」という手法を導入しました。エージェントはいきなり行動するのではなく、まず「どのように問題を解くか」という自然言語の戦略を立て、その戦略に従って行動します。探索対象を「行動空間」から「戦略空間」へ引き上げる発想です。 さらに「mixed-temperature sampling(混合温度サンプリング:戦略は高ランダム性、行動は低ランダム性で生成)」と「strategy reflection(戦略の振り返り:失敗した戦略を言語で分析して改善)」を組み合わせます。 その結果、コーディングやUI操作など4つのエージェント環境で、既存手法より平均27%の相対性能向上を達成しました。さらに、ベースモデルを何度試しても届かなかった水準に到達するなど、モデルの潜在能力をより引き出す結果も報告されています。 LLMの強力な言語推論能力を試行錯誤のプロセスに組み込んだ本研究は、LLMエージェントの設計思想を変える研究となるかもしれません。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
2
26
178
12.1K
岩城祐作 | Algomatic retweetet
AIエージェントユーザー会(AIAU)
【参加者募集中!】 Google Meetup Osaka、まだまだ申し込み募集中! 『Google × AI』がテーマのLT&交流会。最新機能から実務までみんなで知見をシェア! 日時 : 3/23(月) 19:00 場所 : Sansan株式会社 (大阪) 詳細・申込 aiau.connpass.com/event/386555/
日本語
0
11
14
3.2K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
プログラムが10万行に及ぶ大規模開発においても、AIに精度の高いコードを生成させる手法が提案されました。 従来の手法では、AIがセッション間で記憶を共有できないため、プロジェクトの規約や過去のミスを繰り返してしまうという問題がありました。 今回提案された方法は、人間が状況に応じてマニュアルを使い分けるのと似たアプローチです。 具体的には、AIが参照するドキュメントを3つの階層に整理します。 Tier 1. 常に読み込まれる、コーディングの基本ルール (命名規則・やってはいけないミスのリストなど) Tier 2. 特定の領域を触る際に自動で呼び出される、特化型エージェントの仕様書 (「ネットワーク通信の専門家AI」「カメラ座標の専門家AI」など) Tier 3. AIが必要なときだけ検索して参照する、詳細な仕様書 (各システムの具体的な動作やコードの場所など) この仕組みを用いてAIコーディングで10万行規模のソフトウェアを開発したところ、AIがプロジェクトのルールを守りながら高品質なコードを生成できることが確認されました。 AIが過去のバグ修正の記録を自ら引き出し、人間が特定できなかった複雑な通信エラーを発見するといった場面もありました。このような自律的な改善によって、人間が毎回前提となる知識を教え直す手間がなくなり、プロジェクト全体の一貫性も大きく向上しました。 一方で、AIは与えられた仕様書の内容を信頼するため、情報が古いままになっていると誤ったコードを生成してしまうという課題もあります。実践上の目安として、仕様書を最新の状態に保つためには週1〜2時間程度のメンテナンスが必要だとされています。 この研究は、大規模開発における人間の役割が、自らコードを書くことより「AIが迷わないための知識基盤」を設計・管理することへとシフトしていくことを示唆しています。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
18
392
2.5K
601.3K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
完璧なお手本ではなく、試行錯誤しながら徐々に答えに近づくプロセスそのものを教え込む「ベイズ教育(Bayesian teaching)」が、AIの能力を向上させることがわかりました。 今回紹介するGoogle Researchの研究チームが発表した論文「Teaching LLMs to reason like Bayesians」は、LLMに「ベイズ推論(新しい情報に応じて、それまでの推論をより確かなものへ更新する考え方)」を学ばせる手法の報告です。 これまでのLLMには、会話の中で相手の好みや意図を少しずつ学んでいくことに課題がありました。 たとえば、ユーザーとの会話から「価格を重視しているのか」「時間を重視しているのか」を推測する場面でも、追加の手がかりを受け取るたびに柔軟に考えを更新するのではなく、最初の印象や一般的な回答に引っ張られやすい傾向にありました。 そこで研究チームが提案したのが、「ベイズ教育」です。 これは、最初から正解を与える「オラクル教育」とは異なり、情報が限られた状態から出発し、新しい証拠が入るたびに推測を更新していくベイズ推論の過程そのものを学ばせる方法です。 実験では、オラクル教育とベイズ教育のどちらでも性能は有意に改善しましたが、ベイズ教育の方が一貫して高精度でした。 本論文は、状況やユーザーの好みに合わせて柔軟に振る舞う、自律型AIエージェントの進化をさらに加速させるかもしれません。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
1
12
66
4.7K
岩城祐作 | Algomatic retweetet
AIエージェントユーザー会(AIAU)
【開催決定】 Google Meetup Osaka開催! 『Google × AI』がテーマのLT&交流会。最新機能から実務までみんなで知見をシェア! 日時 : 3/23(月) 19:00 場所 : Sansan株式会社 (大阪) 詳細・申込 connpass.com/event/386555/
日本語
0
7
15
1.4K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
優秀なAIも、実際の職場のように数十ものタスクを同時に抱えると、パフォーマンスが低下してしまいます。 Microsoft Researchの論文ではこの課題に対処するため、長時間の複雑なマルチタスク環境「MHTEs」を新たに定義し、人間のように自律して業務をこなすデジタル従業員フレームワーク「CORPGEN」を提案しています。 現在の有力なAIでも、タスクの数が12個から46個へと増えると、完了率が16.7%から8.7%へと急落してしまうことが示されています。 その原因として、本論文は以下の4つの弱点を指摘しています。 1/ コンテキストウィンドウの飽和(タスク数に比例して必要情報が増え、コンテキストウィンドウがすぐ上限に達する) 2/ タスク間のメモリ干渉(あるタスクの情報が別のタスクの処理に混ざってしまう) 3/ 依存関係の複雑さ(上流の作業が終わるまで下流の作業が進められない) 4/ 再優先順位付けの困難さ(毎回すべてのアクティブなタスクを見直す必要がある) そこでCORPGENは、これらの弱点に対処するアーキテクチャを備えています。 「階層的プランニング(目的を1日のゴールと瞬間の決定に分割する機能)」によって優先順位の混乱を防ぎ、「分離されたサブエージェント(特定の作業を独立して行う小さなAI)」がタスク間のメモリ干渉を遮断します。 そして、必要な情報だけを呼び出す「階層型メモリ(情報を整理して保持するシステム)」により、コンテキストウィンドウの飽和を防ぎます。 また、過去の成功パターンを再利用する「経験学習(過去の記録を似た作業に使い回す仕組み)」の導入によりタスクの完了率を大きく向上させています。 その結果、46個のタスクを抱える高負荷な状況でも、従来手法4.3%の約3.5倍となる15.2%の完了率を達成しました。 さらにCORPGENでは、エージェント同士の連携を専用のプログラムで固定せず、人間と同じように「Microsoft Teams」やメールといった通常のコミュニケーション手段で行います。 そのうえで、明示的に役割分担を与えていないにもかかわらず、やり取りの中でリーダー役とサポート役が分かれていくなど、組織のような振る舞いが観察されています。 単なるモデルの賢さではなく、働くための「仕組み」が重要であることを示すとともに、AIが本当の意味で同僚になる日はそう遠くないのかもしれないと感じさせる論文です。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
2
9
64
5.4K
岩城祐作 | Algomatic retweetet
Algomatic AI ラボ
Algomatic AI ラボ@Algomatic_AILab·
AIがコードの大半を書く世界で、人間の価値はどこに残るのでしょうか。 2024年末から2025年にかけての開発現場のプログラマや企業の声を分析し、AIコーディングの実態やリスク、スキル要件の変化、そして教育への提言を総括した論文を紹介します。 従来の開発現場では、エンジニアが手作業でコードを記述していたため、実装そのものに多大な時間と労力を要していました。また、若手のエンジニアは簡単な機能実装やバグ修正といった小さなタスクを通じて段階的にスキルを習得しており、一人前の技術者に育成するまでに長い期間がかかるという業界特有の構造がありました。 しかし近年、自然言語の指示のみでプログラムを完成させる「Vibe Coding」や、自律型AIに複数の開発タスクを委任する「Agentic Coding」といった新手法が台頭しています。 これにより、人間の役割は「コードを書くこと」から「AIの出力を指揮・検証すること」へと移行しています。開発者はシステムの全体設計に集中し、具体的な実装プロセスはAIが担うという、従来とは異なる協働の形が定着しつつあります。 ある調査の結果によると、シリコンバレーの一部スタートアップでは、すでにコードの最大95%がAIによって生成されている実態が報告されています。 また、コードを書く時間が短縮された反面、AIが生成した大量のコードを人間が読んで検証するコードレビューの時間が急増しており、採用面接でもコードレビュー能力が強く重視されるようになっています。 一方で、セキュリティや品質の低下といった深刻な問題も浮き彫りになっています。 AIはもっともらしいコードを素早く出力するものの、セキュリティのベストプラクティスを見落とす傾向があります。ある評価では、AIが生成したバックエンドコードのうち、安全かつ正確だったのはわずか約35%に留まりました。また、AIのミスで本番データベースを消去してしまう大惨事も起きています。 さらに、構造が複雑で保守が難しいコードが生成されやすく、後から人間が修正するコストが増大する技術的負債の懸念も強まっています。 また、AIが実装を代替することで、若手エンジニアが基礎的な経験を積む機会が失われることも大きな課題です。「若手はどうやって一人前になるための学習をするのか」という、長期的な業界全体の技術力低下に対する危機感が広がっています。 このような産業界の急激な変化を踏まえ、今後の情報科学教育やエンジニアのスキルセットは根本的な見直しを迫られています。プログラミング言語の構文暗記よりも、問題解決能力やシステム全体を俯瞰するアーキテクチャ思考がより一層求められるでしょう。 AIを前提とした開発環境において、エンジニアがいかにして本質的なシステム設計能力を養うべきか、実務と教育の両面で新たな枠組みの構築が必要とされています。
Algomatic AI ラボ tweet mediaAlgomatic AI ラボ tweet media
日本語
3
14
54
5.2K
岩城祐作 | Algomatic retweetet
ぬこぬこ / NUKO
ぬこぬこ / NUKO@nukonuko·
気付いたらフォロワー 18,000 人を超えていました!いつもありがとうございます! 最近はいい感じのツールを幾つか作っていて、近いうちに OSS やアプリを公開できるかと思います! 引き続き何卒何卒🙇
ぬこぬこ / NUKO tweet media
日本語
11
5
153
4.9K
岩城祐作 | Algomatic retweetet
株式会社Algomatic
株式会社Algomatic@AlgomaticJp·
▶️プレスリリースのお知らせ 営業AIエージェント #アポドリ が、手紙・FAXによるアプローチを開始✉️ デジタルセールスで届きにくい現場の業界へ、個社別に最適化された1to1メッセージを届けます オンラインとオフラインを横断し、営業のラストワンマイル突破を目指します🚀 prtimes.jp/main/html/rd/p…
日本語
0
7
23
5.7K
岩城祐作 | Algomatic retweetet
Yusuke
Yusuke@yusuke_post·
提案書を生成させるSkillsの自動最適化について、追加で実験をやってみた。 わかったのは、 ・3イテレーションくらいで過学習する。 ・1回だけでなく、3回くらいイテレーションを回すことで徐々にスコアが改善する。 ・学習を始めて最初の方は、「提案書に何を書くか」を学び出して、最後の方では 「提案書のそれぞれの項目をどう書くか」を自動で学習する。 面白かったのは、提案書について、”全体最適→局所最適”の順番でAIが自動で学んだこと。 今回の実験条件は、 ・学習データ7件と評価データ3件を分けて実験。 ・学習データで学習させて、評価データは学習に使わずに評価のためだけに使用。 ・AIが生成したものをデータセットに使用した簡易的な実験。 今後は、実際の過去の人の成果物を正解データとして使い、DeepResearch、Notionツール、ほかMCPなどの使い方も自律的に学習させる方針。
Yusuke tweet mediaYusuke tweet media
Yusuke@yusuke_post

誰でも簡単にSkillsを自動最適化できるClaude Codeのプラグインを試しに作成中。 TextGradという有名な研究を参考に、Skillsを従来の深層学習のような方法でFine Tuningできるようにしたい。 Skillsに、forward, loss, backward,,,,などの概念を適用するのはなかなか面白いかも。

日本語
1
8
132
19.9K
岩城祐作 | Algomatic retweetet
AIエージェントユーザー会(AIAU)
【会場募集】 Cursor Meetup Yokohama を予定しています 4月中旬〜5月中旬で横浜にて開催予定 50〜100名規模で会場をお貸しいただける企業・スペースを探しています。 ・プロジェクター/モニターあり ・横浜駅,みなとみらい周辺希望 「会場使えるよ!」という方、DMかリプお待ちしています
日本語
1
15
27
3.3K