Findy AI+｜生成AIの最新ニュースを発信

170 posts

Findy AI+｜生成AIの最新ニュースを発信

@AIPlus_Findy

グローバルの生成AI最新トレンドを毎日お届け。 Claude Code、Codex、CursorなどのAIツールを使いこなし、Agentic Workflowを開発組織のデファクトに。

Katılım Nisan 2026

23 Takip Edilen51 Takipçiler

Sabitlenmiş Tweet

「Findy AI+」がプロンプト・セッションログも分析できるようになりました🎉 【追加されたデータ】・トークン量・セッション量・コスト　- AIをどれだけ使っているかの基本指標・AIからのコミット数・PR数　- AI活用が業務生産性まで繋がった参考指標・Commands利用回数(スラッシュコマンド, skill, agent, MCPサーバー) 　- どのAIエージェント、AI機能がどのくらい使われているか上記のデータを活用して、以下のような深堀り分析も行えます。・トークンの消費効率・command, skill, agentを使ってどれくらい効率よく開発業務を進められているか無料でご利用できますので、ぜひお気軽にお試しください🙌

筋肉CTO まさたん 💪 Findy@ma3tk

Findy AI+で組織内のAI活用度のランキングが見れるようになりました🎉 具体的には・🤖AIを活用して定着できているか・👨‍💻トークンがうまく使えているかなどの順位が見れたり、利用状況の深堀りが可能になりました！無料で始められますので、ぜひご利用頂けると嬉しいです！ 🔽詳細はリプへ

日本語

494

AIエージェントが同じミスを繰り返すのは、テストツールがあっても「何をテストすべきか」の手順がないから LangChainは1,600億円調達し、洗練されたテスト基盤を持つけど、失敗→修正→テスト→評価の具体的なループは提供していない 💡 ポイント・テストツールだけでは不十分——何を、どの順で、いつまでやるかの指針がない・プロンプト調整や「幻覚するな」の呪文は複雑な会話で崩壊する・失敗を構造的な修正に変える「skillify」で同じミスを永久に防ぐ 1. LangChainの限界・LangSmithは軌跡評価、トレース→データセット、LLM審査、回帰テスト、ツール単体テストなど部品は揃っている・けど「失敗が起きた→スキルを書く→決定的コードを書く→単体テストを書く→LLM評価を書く→リゾルバトリガーを追加→リゾルバを評価→重複を監査→スモークテスト→正しくファイル化」という明確なループがない・ユーザーは散在する原始的な部品から自分でワークフローを発明しなければならない・多くのAIユーザーがエージェントをまったくテストしない理由——ジム会員権だけ渡されてトレーニングプランがない状態 2. 一般的な「信頼性」アプローチの問題・ほとんどのAIエージェント信頼性は雰囲気ベース・プロンプト微調整、巨大なシステムメッセージ、「幻覚するな」の呪文に頼る・会話が複雑になった瞬間に崩壊する・数億ドル調達したフレームワークが提供したのは監視ダッシュボードと単体テストヘルパーだけで「頑張って」と言われる 3. skillifyの実践・筆者のエージェントが今週2回失敗した・どちらも二度と起きない——お願いしたからではなく、各失敗を永久的な構造的修正に変えたから・スキル + 毎日永遠に実行されるテストに変換する・この実践を「skillify」と呼ぶ 4. 失敗例1: データベースに既にあった出張情報・10年前のビジネス出張について質問——1秒で答えられるはず・エージェントの実際の動き: - ライブカレンダーAPI呼び出し → ブロック（古すぎる） - メール検索試行 → ノイズだらけで結論出ず - 別パラメータでカレンダーAPI再試行 → またブロック - 5分後、ローカル知識ベースを検索して即座に発見・答えは最初から自分のデータにあった——2013〜2026年の3,146カレンダーファイル、既にインデックス済み、ローカル、1回のgrepで済む・エージェントは最初にそこを見なかった 5. 潜在的作業 vs 決定的作業の区別・thin harness, fat skillsフレームワークでは判断が必要な作業と精度が必要な作業を区別する・潜在的（latent）と決定的（deterministic）と呼ぶ・カレンダーgrepは決定的——同じ入力、同じ出力、毎回、モデル不要・けどエージェントは潜在空間でやった——推論を回し、API呼び出しし、結果を解釈した・3行のスクリプトで即座に答えが返るのに・バグは間違った答えではなく、間違った側（latent vs deterministic）を選んだこと 6. 修正: calendar-recallスキル（ステップ1 + 2）・thin harness / fat skillsでは、スキルはモデルにタスクへのアプローチ方法を教えるmarkdown手順・何をするか（ユーザーが供給）ではなく、プロセスを供給する・メソッド呼び出しのようなもの——同じ手順、渡すものによって全く異なる出力 7. calendar-recallスキルの内容・名前: calendar-recall ・説明: 「脳優先の履歴カレンダー検索。未来または過去48時間以内でないイベントには、ライブAPIの前に必ずこれを使え」・内部のハードルール: ライブカレンダーAPIは未来または過去48時間のイベントのみ。すべての履歴はまずローカル知識ベースを通す 8. スキルが機能する仕組み・エージェント自身が決定的スクリプトを書いた・スキルファイル（markdown、潜在空間に存在）がエージェントに問題の修正

Garry Tan@garrytan

x.com/i/article/2046…

日本語

185

AIエージェントの40%以上が本番で失敗している。 ProductionレベルのAIエージェントを作るには？ ↓↓ 1. エージェント境界と脅威モデルを定義せよ・エージェントはAPIキーやDB接続など、通常ユーザーが持たない権限を持つ・攻撃者が自然言語でコンテキストを操作すると、エージェントの権限を悪用される（Confused Deputy問題）・デプロイ前に、すべてのAPI接続・ツール呼び出し・データアクセス点をマッピングせよ・どのシステムに読み書き・変更が可能か、機密データの流れと攻撃ベクトルを特定せよ 2. Prompt Injection対策を多層防御で実装せよ・OWASPによると73%の本番環境で発生している最大の脆弱性・SQLインジェクションと違い、LLMの自然言語処理に本質的に内在する問題かもしれない・研究では、わずか5つの細工された文書でRAG Poisoningを通じて90%の確率でAI応答を操作できる・実例：外部ドキュメント内の隠し指示で患者記録が漏洩、不正な金融操作が実行された 3. 防御戦略を実装せよ・入力フィルタリング：エージェントがプロンプトを見る前に決定論的コードまたは分類モデルで検査・サニタイゼーション：ユーザー入力と外部コンテンツの洗浄は必要・セマンティック分析：単純な文字列マッチングを超えて意図を理解する・拒否リストと許可リスト：攻撃シグネチャの厳格な拒否リスト、承認済みトピック領域の狭い許可リストを実装・重要：セキュリティはLLM推論ループの完全に外側に存在させよ 4. あらゆる箇所に契約を定義せよ・ツールシグネチャに厳格な型付きスキーマを定義し、サーバー側で検証せよ・不正な呼び出しやLLMによるパラメータ捏造を防ぐ・ツールは厳格な契約として扱え、便利な機能として扱うな 5. バリデーション要件を満たせ・すべてのツールにPydantic（Python）やZod（Node）などで明示的に型付けされた入力を定義せよ・コード実行前にサーバー側検証で契約を強制せよ・LLMが正しくデータをフォーマットすることを信用するな・ツール呼び出し生成時に検証する要素：正しいツール名、必要なパラメータの存在、データ型の完全一致、値が許可範囲内に収まること 6. エラー処理とリカバリを実装せよ・失敗時にクラッシュさせるな・検証失敗時に構造化されたエラーレスポンスを返せ・エージェントがエラーを読み取り、フォーマットを修正し、再試行できるようにせよ・冪等性キーを実装してリトライを安全に（タイムアウトで同じ処理が3回走るリスクを防ぐ）・スキーマのバージョン管理で既存ワークフローを壊さずAPIを安全に進化させる

Rohit@rohit4verse

x.com/i/article/2022…

日本語

Claude、MCP経由で本番システムに直接つながり始めたエージェントが本番DBやインフラを操作できる時代に。MCP月間3億DL突破、本番エージェントの基盤に。 claude.com/blog/building-… 💡 ポイント・MCP SDKが月間3億DL（年初1億→3億）・本番エージェントはクラウドで動くため、CLI方式は限界・MCP経由でどの環境でも動く標準化された接続が可能に 1. エージェント接続の3パターン・直接API: 1対1なら速い。増えるとM×N問題に・CLI: ローカルは強い。クラウド・モバイルに届かない・MCP: 認証・探索が標準化。どの環境でも動く 2. 本番で使うならMCP ・本番エージェントはクラウドで常時稼働・データもインフラもクラウドにある・リモートサーバー構成で全プラットフォームに配信可能 3. 効果的なMCPサーバーの作り方・リモートサーバーを選ぶ（Web・モバイル・クラウド対応）・認証・探索機能を組み込む・豊富なセマンティクスでエージェントの操作精度を上げる

日本語

Anthropicが「AI経済指数調査」を開始。Claudeユーザーから毎月ヒアリング。雇用統計では遅い。実際に使っている人の声から変化を捉える試み。 anthropic.com/research/econo… 💡 ポイント・従来の雇用統計は数ヶ月遅れで変化を捉える・Claudeユーザーへの月次調査で変化の兆しを早期検知・12月実施の調査では81,000件の回答を収集済み 1. 調査の狙い・AIが仕事に与える影響をリアルタイムで把握・どのタスクをAIに任せているか・生産性の変化や採用の動きを追跡・10年後の経済への期待も聴取 2. 仕組み・2週間以上使っているユーザーから毎月ランダム抽出・Anthropic Interviewerで対話形式の調査・プライバシーに配慮しながら利用データと組み合わせて分析雇用統計が出る前に、現場の変化をつかむ。

日本語

VS Code版Copilot、外部LLMのAPIキーを持ち込めるように Copilot Business/Enterprise契約のまま、Anthropic・Gemini・OpenAI等のAPIキーを使える「BYOK」がVS Codeで利用可能に。 github.blog/changelog/2026… 💡 ポイント・VS Code Chat内のどこでも外部モデルを利用可能・利用料は各プロバイダーに直接請求（Copilotクォータ消費なし）・組織ポリシーで一括制御可能 1. 使える場所・VS Code Chatのすべての場面・組み込みのplan agent ・カスタムagent ※コード補完には適用されない 2. 対応プロバイダー・Anthropic、Gemini、OpenAI、OpenRouter、Azure ・Ollama、Foundry Localでローカル実行モデルも可 3. 設定方法・デフォルトで有効・組織メンバーが各自モデル追加可能・無効化は管理者がGitHub.comのポリシー設定から

日本語

198

A／Bテストとのこと x.com/TheAmolAvasare…

Amol Avasare@TheAmolAvasare

For clarity, we're running a small test on ~2% of new prosumer signups. Existing Pro and Max subscribers aren't affected.

日本語

Claude Codeがmaxプラン限定に。これまでProプランでも使えたが、利用できなくなった。

日本語

192

Claude Codeの/resume、大量セッションで67%高速化。 40MB超の会話履歴でも素早く復帰できるように。読み込み時の処理効率が大幅改善。 github.com/anthropics/cla… 💡 ポイント・大規模セッション（40MB以上）で最大67%高速化・/resumeが分岐履歴の多いセッションも効率的に処理・MCP起動の高速化でstdioサーバー複数構成時も快適に 1. パフォーマンス改善・/resumeの大幅高速化（40MB超で最大67%）・MCP起動時間の短縮（resources/templates/listを初回@メンションまで遅延）・VSCode/Cursor/Windsurf端末のフルスクリーンスクロール最適化 2. UX改善・思考中の進捗をインライン表示（「still thinking」「almost done thinking」）・/config検索がオプション値もマッチ（例：「vim」でエディタモード設定を発見）・/doctorを応答中でも起動可能に 3. セキュリティ強化・サンドボックス自動許可が/、$HOMEなどの重要ディレクトリへのrm/rmdirを安全チェック 4. バグ修正・デーヴァナーガリー等のインド系文字の端末表示崩れを修正・Ctrl+Z、Cmd+Left/Rightなどのキーボード操作の不具合を解消・50MB超の会話でも/branchが正常動作

日本語

169

Codex、画面の内容を"見て"文脈を自動で覚える「Chronicle」が登場。最近の画面コンテキストからメモリを強化し、いちいち状況を説明し直さなくても作業の続きを手伝ってくれるようになった。 💡 ポイント・先週プレビュー公開されたCodexのメモリ機能を拡張する実験・Chronicleが直近の画面コンテキストを使ってメモリを改善・「今何をやっているか」を再説明しなくてもCodexが把握してくれる 1. 何が変わったか・従来のCodexメモリは手動で文脈を渡す必要があった・Chronicleは最近の画面操作から文脈を自動取得・作業の流れを途切れさせずにCodexへ指示できる 2. AI自走の観点で気になる点・「画面を見ている」ということは、IDEやブラウザの操作履歴がそのままコンテキストになる・コンテキスト切り替えのコストが下がれば、エージェントに任せる粒度が大きくなりそう・メモリの精度次第で、タスク間の引き継ぎが人間→AI間でもスムーズになる可能性がある

OpenAI Developers@OpenAIDevs

Last week, we released a preview of memories in Codex. Today, we’re expanding the experiment with Chronicle, which improves memories using recent screen context. Now, Codex can help with what you’ve been working on without you restating context.

日本語

AnthropicがSTEM分野の専門家向けフェローシップを開始。各領域のエキスパートがAnthropicの研究チームと数ヶ月間、特定プロジェクトに取り組む仕組みらしい。 💡 ポイント・AIで科学・工学の進歩を加速させる目的のプログラム・専門家がAnthropicの研究チームに直接参加する形式・数ヶ月単位の特定プロジェクトへのコミット 1. プログラムの概要・名称は「Anthropic STEM Fellows Program」・科学・工学の各分野からエキスパートを募集・Anthropicの研究チームと並走して特定プロジェクトに取り組む・期間は数ヶ月間 2. 注目している点・AI企業側が「ドメイン専門家を招く」という方向に動いているのが興味深い・AIモデルの性能向上だけでなく、実際の科学・工学課題への適用を重視している印象・応募は公式サイトから可能

Anthropic@AnthropicAI

We're launching the Anthropic STEM Fellows Program. AI will accelerate progress in science and engineering. We're looking for experts across these fields to work alongside our research teams on specific projects over a few months. Learn more and apply: job-boards.greenhouse.io/anthropic/jobs…

日本語

Claude Code v2.1.116、大型セッション再開が67%高速化。 40MB超のセッションで/resumeが最大67%速い。設定検索も改善され、「vim」で関連設定がヒット。 github.com/anthropics/cla… 💡 ポイント・40MB超のセッション再開が最大67%高速化・/config検索が設定値にも対応（「vim」でEditor mode設定を発見）・Thinking表示が進捗インライン化（「still thinking」→「almost done」） 1. パフォーマンス改善・大型セッション（40MB超）の/resume速度が最大67%向上・複数MCPサーバー起動時の初期化を高速化・VSCode/Cursor/Windsurf端末のフルスクリーンスクロールが滑らかに 2. UX改善・Thinking進捗が別行ではなくインライン表示に変更・/doctorを応答中でも開けるように・使用量タブが5時間・週間使用量を即座に表示 3. セキュリティ強化・サンドボックス自動許可が/やHOME等の重要ディレクトリ削除をブロック・rm/rmdirの危険パス安全チェックを迂回不可に 4. バグ修正・Devanagari等のIndic文字の列揃え崩れを解消・Kittyキーボードプロトコル使用端末でのCtrl+- undo動作を修復・50MB超のトランスクリプトで/branchが拒否される問題を解決

日本語

Git 2.54に「git history」コマンドが追加。コミット履歴の部分修正が簡単に。 3つ前のコミットメッセージのtypo修正や、1つのコミットを2つに分割する作業が、rebaseなしで完結。 github.blog/open-source/gi… 💡 ポイント・作業ツリーに触れず履歴を書き換え・bareリポジトリでも動作可能・マージコミットや競合が発生する操作には非対応 1. できること・git history reword: 指定コミットのメッセージを書き換え・git history split: コミットを2つに分割（git add -pと同じ操作感）・descendant（子孫）ブランチも自動で更新 2. 従来のrebaseとの違い・rebaseは作業ツリー/インデックスを更新する・historyは履歴だけを操作・conflictが起きない範囲の修正に特化 3. 使い分け・typo修正・コミット分割 → git history ・複数コミットの並べ替え・squash → git rebase -i ・スクリプトから呼ぶ場合もhistoryが適している

日本語

GitHub Copilot、個人プラン受付を一時停止。既存ユーザーのサービス品質を優先するため、Pro/Pro+/Studentプランの新規受付が停止に。Freeプランは受付継続。 💡 ポイント・新規ユーザーはFreeプランのみ利用可・既存ユーザーはプラン変更・アップグレード可能・Pro+の利用制限はProの5倍以上 1. 利用制限の厳格化・Pro+はProの5倍以上の制限・制限に近づくとVS CodeとCLIで警告表示・上限に達したらPro+へのアップグレードを検討 2. モデルの変更・ProからOpusモデルが削除・Pro+でOpus 4.7は引き続き利用可・Opus 4.5/4.6はPro+からも削除予定 3. 不満がある場合の対応・4月20日〜5月20日にサポートへ連絡で返金対応・Pro/Pro+をキャンセルすれば4月分は請求されない

GitHub Changelog@GHchangelog

New signups for Copilot Pro, Pro+, and Student plans are paused to maintain service reliability for current users. • Usage limits tightened; Pro+ offers 5X higher limits than Pro github.blog/changelog/2026…

日本語

709

💡 ポイント・3人で100万行出荷するチームと、リファクタすら安定しないチームの差は「ハーネス」・モデルの生の能力は、インターフェース次第で全く別物になる・同じモデルでもタスクの提示方法とツールで結果が激変する（2024年研究） 1. ハーネスとは何か（誤解されている定義）・システムプロンプトではない・API呼び出しのラッパーではない・evalフレームワークでも、プロンプトテンプレートでも、メモリ付きチャットボットでもない・LMが動く「完全な設計環境」を指す 2. ハーネスの構成要素・呼び出せるツール群・受け取る情報のフォーマット・履歴の圧縮と管理方法・ミスが連鎖する前にキャッチするガードレール・一貫性を保ったまま未来の自分に作業を引き継ぐ足場（scaffolding） 3. なぜハーネスが全てなのか・LMは無限の内部知識ベースから推論する汎用推論器ではない・コンテキストウィンドウ内のトークンで動くパターンマッチングエンジン・その瞬間に知っていることは、ウィンドウ内にあるもので決まる・入力フォーマットは装飾ではなく、エージェントの認知アーキテクチャそのもの 4. インターフェース = 思考そのもの（SWE-agent論文の主張）・同じモデル・同じタスク・同じ計算量で、インターフェース設計だけでベンチマーク64%改善・IDEは開発者を賢くしない——摩擦を除去し、適切なタイミングで情報を提示し、エラーを早期に捕捉する・LMエージェントにとって、インターフェースは便利レイヤーではなく「思考」そのもの 5. 実例が示すパターン・Anthropic（Claude Code）——イニシャライザ＋コーディングエージェントの2層設計・OpenAI（Codex）——手書きコードゼロで100万行、エンジニア1人あたり3.5 PR/日・Princeton NLP（SWE-agent）——Agent-Computer Interface（ACI）を提唱、同モデルで3.97%→12.47%へ・すべてが同じパターンに収束している 6. 繰り返す5つの設計パターン・Progressive Disclosure（必要最小限だけ渡し、残りへのポインタを提供）・Git Worktreeによる隔離（エージェント1つ＝ワークツリー1つ）・リポジトリを唯一の真実として扱う（Slack/Docs/人の頭の中には存在しない）・アーキテクチャ制約を機械的に強制（コードレビューではなくlinter）・統合されたフィードバックループ（編集時にlint、実行時に観測、UIはブラウザ自動化） 7. エンジニアの仕事が変わる・「なぜバグが出るか」ではなく「どの環境機能が欠けているか」を問う・コードをデバッグするのではなく、コードを生成するシステムをデバッグする・投資対効果：プロンプト改善は局所的・一時的、ツール改善はカテゴリ単位で永続的 8. 競争優位の源泉はモデルではなくハーネス・モデルの上限は他社の研究が決める・ハーネスの上限は自分のエンジニアリング投資が決める・モデルは考えるもの、ハーネスは何について考えるかを決めるもの

Rohit@rohit4verse

x.com/i/article/2028…

日本語

Claude Codeを分解したら、AIエージェント設計の常識が変わった UCLの研究チームがリークされたソースコードを解析。AIの判断ロジックはわずか1.6%で、残り98.4%は運用基盤だった。 💡 ポイント・コアループは単純なwhile文（モデル呼び出し→ツール実行→繰り返し）・大半のコードは権限管理・安全性・拡張性の仕組み・OpenClawとの比較で、同じ設計課題に異なる答えが見えた 1. 5つの設計思想・人間の意思決定権限を保つ・安全性とセキュリティを確保する・確実に実行できる仕組みを作る・機能を拡張しやすくする・文脈に応じて適応できるようにする 2. 13の設計原則これらの思想を実装に落とし込む具体的な指針。安全性評価から文脈管理、ツール登録、委譲メカニズム、セッション保存まで、エージェントが実用レベルで動くための設計判断が並ぶ。 3. 権限システム（7モード）・完全自律モード・ツール実行前に確認・編集前に確認・コマンド実行前に確認・すべて確認・読み取り専用・拒否モードユーザーがリスク許容度に応じて選べる設計。 4. ML分類器による安全性判定権限チェックの前段階で、ツール呼び出しの安全性を機械学習で判定している。危険度が高いと判断されたら、より厳しい権限モードに切り替わる仕組み。 5. 5層のコンテキスト圧縮パイプライン会話履歴が長くなるとトークン数が爆発する。それを防ぐために、5段階で情報を圧縮・要約・削減する仕組みが入っている。 6. 4つの拡張メカニズム・MCP（Model Context Protocol）：外部ツールを標準化して接続・プラグイン：機能を後から追加・スキル：再利用可能な処理パターン・フック：特定のタイミングで処理を差し込むツールを増やしても破綻しない設計。 7. サブエージェント委譲複雑なタスクを子エージェントに分割して実行させる仕組み。親エージェントが全体を管理し、子エージェントが個別タスクを処理する。 8. オーケストレーションメカニズム複数のツールやエージェントを組み合わせて、一連の処理を自動実行する仕組み。ワークフロー全体を制御する層。 9. セッション保存（追記型）会話履歴やツール実行結果を追記形式で保存。過去のやり取りを再開したり、エラー時に復元したりできる。 10. OpenClawとの比較同じ設計課題（安全性・文脈管理・拡張性）に対して、異なるアーキテクチャで答えている。 Claude Code：・アクションごとの安全性評価・ユーザーレベルの権限制御・単一CLIループ・組み込みランタイム・ゲートウェイ制御・文脈ウィンドウ拡張 OpenClaw：・ペリメーター（境界）レベルの安全性評価・ゲートウェイ全体の権限制御・複数チャネル対応・埋め込みランタイム・ゲートウェイ登録・ゲートウェイ全体の機能拡張デプロイ文脈が変わると、設計判断も変わる。 11. 6つのオープンな設計方向研究チームが今後の課題として挙げた論点：・エージェント間の協調メカニズム・長期記憶とコンテキスト管理・マルチモーダル対応・説明可能性と透明性・倫理的配慮とバイアス軽減・スケーラビリティと効率性実証研究・アーキテクチャ設計・ポリシー議論の3方向から検討が必要。 --- 補足この研究は、公開されたTypeScriptソースコードを解析したもの。Anthropic公式の内部調査（エンジニア132人対象）では、Claude Code支援タスクの27%が「このツールがなければ着手しなかった作業」だったという。既存ワークフローを加速するだけでなく、新しいワークフローを可能にしている。

Akshay 🚀@akshay_pachaar

Claude Code fully dissected! Researchers from UCL reverse-engineered the leaked Claude source. What they found changes how you should think about agent design. Only 1.6% of the codebase is AI decision logic. The other 98.4% is operational infrastructure. Permission gates, tool routing, context compaction, recovery logic, session persistence. The model reasons. The harness does everything else. This is the opposite of what most agent frameworks do today. LangGraph routes model outputs through explicit state machines. Devin bolts heavy planners onto operational scaffolding. Claude Code gives the model maximum decision latitude inside a rich deterministic harness, and invests all its engineering effort in that harness. The core loop is a simple while-true. Call model, run tools, repeat. But the systems around that loop are where the real design lives: A permission system with 7 modes and an ML classifier. Users approve 93% of prompts anyway, so the architecture compensates with automated layers instead of adding more warnings. A 5-layer context compaction pipeline. Each layer runs only when cheaper ones fail. Budget reduction, snip, microcompact, context collapse, auto-compact. Four extension mechanisms ordered by context cost. Hooks (zero), skills (low), plugins (medium), MCP (high). Each answers a different integration problem. Subagents return only summary text to the parent. Their full transcripts live in sidechain files. Agent teams still cost roughly 7x the tokens of a standard session. Resume does not restore session-scoped permissions. Trust is re-established every session. That friction is the point. The bet behind all of this is simple. As frontier models converge on raw coding ability, the quality of the harness becomes the differentiator, not the model. Paper: Dive into Claude Code (arXiv:2604.14228) In the next tweet, I've shared an article I wrote on Agent Harness and what every big company is building. Do check.

日本語

115

Claude Devs主催のバーチャルハッカソンが再び開催。 Opus 4.7を使って世界中の開発者と一緒にビルドする1週間のイベントらしい。 💡 ポイント・最新モデルOpus 4.7を実際に触れるチャンス・世界中の開発者とオンラインで参加可能・前回も開催されており、今回が再開催 1. イベント概要・Claude Devsが主催するバーチャルハッカソン・期間は1週間・Opus 4.7を使った開発がテーマ 2. 参加のポイント・グローバルな開発者コミュニティと交流できる・最新モデルでどこまで作れるか試す良い機会

ClaudeDevs@ClaudeDevs

Our virtual hackathon is back! Join us for a week of building with Opus 4.7 alongside developers from around the world. The Claude Code team will be in the room all week, with a prize pool of $100K in API credits.

日本語

180

Cursor、Composer 2の利用上限を今週末まで2倍に開放。新しいAgentsウィンドウ内でのComposer 2が対象で、期間限定の措置とのこと。

Cursor@cursor_ai

Through the end of this weekend, we are doubling Composer 2 usage limits inside of Cursor's new agents window. Enjoy!

日本語

154

Codex、オープンソースとして公開。 OpenAIのCLIコーディングエージェント「Codex」のソースコードが誰でも使える形で公開された。自分のアプリやワークフローに組み込める。 💡 ポイント・ソースコードが公開され、誰でもCodex上にアプリを構築可能・CLI（コマンドライン）ベースのコーディングエージェントオープンソース化の意味・Codexの内部実装を確認・改変できるようになった・自社の開発環境やツールチェーンに組み込む自由度が生まれる・コミュニティによる拡張やプラグイン開発が進む可能性

Greg Brockman@gdb

Codex is open source, enabling anyone to build awesome applications on top of it:

日本語

268

AIエージェントが「自分の弱点」を自分で見つけて改善する。 Autogenesisという自己進化プロトコルの論文が面白い。エージェントが能力のギャップを特定し、改善案を自動生成する仕組み。 💡 ポイント・エージェントが自分の能力不足を自己診断する・改善候補を自動生成して進化していく・人間が逐一チューニングしなくても自走するアプローチ 1. Autogenesisの仕組み・エージェントが自分のタスク遂行能力のギャップを特定・そのギャップを埋める改善案を自ら生成・人手でのプロンプト調整や再設計を減らせる可能性 2. AI自走サイクルとの接点・「自分で課題を見つけて直す」はまさにAI自走の理想形・エージェント運用のメンテナンスコストが下がる方向・開発者が介入するのは「方向性の判断」だけになるかもしれない

elvis@omarsar0

// Self-Evolving Agent Protocol // One of the more interesting papers I read this week. (bookmark it if you are an AI dev) The paper introduces Autogenesis, a self-evolving agent protocol where agents identify their own capability gaps, generate candidate improvements, validate them through testing, and integrate what works back into their own operational framework. No retraining, no human patching, just an ongoing loop of assessment, proposal, validation, and integration. Why it's worth reading this paper: Static agents age quickly. As deployment environments change and new tools arrive, the agents that survive will be the ones that can safely rewrite themselves. Autogenesis is part of a growing wave of self-improving agent systems, alongside work like Meta-Harness and the Darwin Gödel Machine line, and it's one of the cleaner protocol-level takes on continual self-improvement so far. Paper: arxiv.org/abs/2604.15034 Learn to build effective AI agents in our academy: academy.dair.ai

日本語

AnthropicがClaude Designを公開。会話でデザインを作れるツール。プロトタイプやスライドをテキスト指示だけで作成でき、チームのデザインシステムも自動適用される。 💡 ポイント・デザイン知識がなくても、会話だけでプロトタイプやスライド・資料を作成できる・Canva・PDF・PPTXへのエクスポートや、Claude Codeへの実装引き渡しにも対応・Datadogでは「1週間かかっていた作業が1回の会話で完結」との評価 1. 主な使い方・インタラクティブなプロトタイプ（コードなしで動くデモを共有）・機能設計のワイヤーフレーム（Claude Codeへの引き渡しも可）・ピッチデック・資料（ラフな構成から数分で完成、PPTX書き出し対応）・ランディングページやSNS素材などのマーケ資料 2. 仕組み・コードや既存デザインファイルを読み込み、ブランドのスタイルを自動でプロジェクトへ適用・テキスト、画像、DOCX/PPTX/XLSXアップロード、Webキャプチャなど複数の起点から作業開始可能・インラインコメントや直接編集でピンポイントに修正し、全体へ一括反映できる Brilliantの事例では、他ツールで20回以上プロンプトが必要だった複雑なページが2回で完成。 Pro・Max・Team・Enterpriseプランで利用可能（現在リサーチプレビュー段階）。

Claude@claudeai

Introducing Claude Design by Anthropic Labs: make prototypes, slides, and one-pagers by talking to Claude. Powered by Claude Opus 4.7, our most capable vision model. Available in research preview on the Pro, Max, Team, and Enterprise plans, rolling out throughout the day.

日本語

167

Keşfet

@elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine @katyperry