Tom220413
1.2K posts

Tom220413
@zi_Matsu
株式会社Zhienius エンジニア|組織人事採用コンサル/HR tech|Pythonエンジニア| 営業→SES→事業会社→NOW|お仕事関係のフォロー&DM大歓迎です| 発言は個人の見解であり所属する団体の公式見解ではありません。原宿に古着屋出してます https://t.co/hi44ftpjtA
Katılım Ağustos 2022
689 Takip Edilen852 Takipçiler
Sabitlenmiş Tweet
Tom220413 retweetledi

说实话,这才是Anthropic今年最有价值的更新啊,没有之一!!!
没有堆更大的上下文窗口,也没有吹更厉害的模型能力,Claude Code的核心开发者@trq212 大神直接把大部分人用长上下文的错误方式拍在了大家脸上。
这是官方自己承认1M窗口根本解决不了问题,
真正能让长任务跑通的是主动的会话管理。
而且官方直接给了这张图,一句话道破所有真相,每一次AI输出完毕,都不是一个结束,而是一个五选一的分支决策点。
而99%的人永远只会点那个默认的最差选项:Continue,
剩下的四个按钮,绝大多数人甚至从来都没碰过。
我之前写过Context Rot的问题,很多人半信半疑,现在官方实锤了。
长上下文的性能就是会随着token数线性衰减,
对话越长,模型越笨,注意力越分散,旧内容的干扰越严重,
到最后它会彻底失忆,胡说八道,连自己刚刚说过的话都不认。
你以为是你prompt写的不好,其实是它的脑子已经转不动了🤣
这次更新最狠的地方,是它直接把选择权交还给了你,
Continue:继续在错误的泥潭里越陷越深。
Rewind:及时止损,退回到上一个正确的节点。
/clear:保留核心结论,扔掉所有没用的中间垃圾。
/compact:让模型自己总结上下文,轻装上阵。
Subagent:把脏活累活隔离出去,不要污染主上下文。
没啥黑魔法,就是这么简单的五个选项,
但就是这五个选项,能把你长任务的成功率,从10%拉到90%以上。
评论区有一个评论说的特别好,
“我不想用compact,它删的太多了 我想要它精准删掉那些没用的工具调用输出。”
我理解这也是目前这个功能最大的局限性,
现在的compact还是全量压缩,粒度太粗。
但问题不大,这已经是目前最好的解决方案了。
而且你可以不用compact,用/clear,自己手动提炼核心结论,慢一点,但绝对精准。
最有意思的是行业信号,之前所有人都在卷谁的上下文窗口更大,2M,4M,8M,好像越大越厉害。
现在Anthropic带头说,别卷了,没用🤣
窗口再大,你不会管理,最后还是一堆垃圾。
这相当于直接给过去两年的长上下文军备竞赛,泼了一盆冷水。
真正的竞争,已经从能装多少变成了能管好多少了。
我还是那个观点,这套东西根本不止适用于AI,它就是一套完美的个人认知操作系统运行手册,
我们的大脑就是一个有限上下文的模型,
Context Rot就是我们的认知过载和信息焦虑,
Rewind就是及时止损,不要在错误的方向上继续投入,
Compact就是知识压缩,把厚书读薄,
Clear就是主动遗忘,扔掉没用的草稿和中间过程,
Subagent就是分工授权,不要什么事都自己干。
很多人问我,人和人用AI的差距到底在哪,现在答案很明确了,
别人还在傻呵呵的一条对话聊到底,跟失忆的模型反复拉扯,你已经在每一个节点,主动做决策,把上下文打理的干干净净。
别人的会话越跑越慢,越跑越笨,你的会话永远轻装上阵,永远保持最高的性能,这个差距,会随着时间指数级放大。
最后给大家一个今天就能用的建议。
现在就去打开Claude Code,输入/usage,
看看你自己的token使用曲线,找到你自己的Context Rot阈值,
比如我自己是到300k token左右,模型就开始明显变笨,以后每次快到这个数,就主动compact或者clear ,别等它傻了再补救,那时候已经晚了。




Thariq@trq212
中文
Tom220413 retweetledi
Tom220413 retweetledi

Anthropic から Harness Engineering に焦点を当てたブログが出てました。網羅性が高く、これだけで要点を押さえられそうです。
- bash/editorツールを土台にする
- PTC, skills, compaction, Memory tool, subagents
- prompt caching, 適切なtool設計, hookの利用
claude.com/blog/harnessin…
日本語


触ってみよ〜
加速度的に開発速度が上がりそう、またハーネスエンジニアリングの重要性も上がりそう
Oikon@oikon48
本日公開された Claude Managed Agents について、分かりやすくまとまっていて助かります。触ってみないと分かりにくい。
日本語
Tom220413 retweetledi

めっちゃ勉強になった。ハーネスがマネージドサービス化するというのはこうゆうことなんだよという格の違いを見せつけられた感じです。メタハーネス
anthropic.com/engineering/ma…
日本語
Tom220413 retweetledi

AI同士で自己改善する手法が海外でバズってる。
GAN的な感じでAI同士で監視させると、自己改善をしてくれて、人間が修正するよりも精度が上がるとのこと。
普通に毎日Cronなどの定期実行でClaude. mdやスキルを見直させても近しいことができそう。
一応、初心者向けにわかりやすくまとめました👇
━━━━━━━━━━━━━━━━━
🔥 AutoAgentとは何か
━━━━━━━━━━━━━━━━━
一言で言うと「AIがAIを育てるOSSライブラリ」
24時間の自律最適化だけで、2つのベンチマーク世界1位を達成。
他のエントリーはすべて人間が手動チューニングしたもの。
AutoAgentだけが自律的に到達した。
📊 スコア
・SpreadsheetBench:96.5%(1位)
・TerminalBench GPT-5スコア:55.1%(1位)
━━━━━━━━━━━━━━━━━
🤔 まず「ハーネス」って何?
━━━━━━━━━━━━━━━━━
AIエージェントは、モデルがあるだけでは動かない。
周りに「道具立て」が必要。
ハーネス=AIが仕事をするための環境セット
・どんな指示を与えるか(システムプロンプト)
・どんな道具を使えるか(ツール)
・どんな順番で動くか(オーケストレーション)
例えるなら「新入社員(AI)に渡すマニュアル+使える機材一式」
このハーネスの出来が悪いと、どんなに優秀なモデルでも結果が出ない。
そしてこれまでは全部、人間が手作業で調整していた。
→ 専門家じゃないとできない
→ 1つのハーネスに何日もかかる
→ 企業には数百のワークフローがある → 詰む
━━━━━━━━━━━━━━━━━
⚙️ AutoAgentの仕組み
━━━━━━━━━━━━━━━━━
登場人物は2人のAI
🎓 メタエージェント(コーチ役)
└ ハーネスを改良することが仕事
🏃 タスクエージェント(選手役)
└ 実際の作業をこなすことが仕事
人間がやること:
・「何ができたら合格か」のゴールを定義するだけ
・program.md というファイルに方針を書くだけ
あとはAIが24時間、以下を繰り返す:
① コーチがハーネスを書き換える
② 選手が実際のタスクをこなす
③ スコアを測る
④ 失敗の軌跡を読んで「なぜ失敗したか」を分析
⑤ よければ採用、ダメなら元に戻す
⑥ ①に戻る
これを数千の並列サンドボックスで同時実行する。
━━━━━━━━━━━━━━━━━
🧠 なぜAIのほうが上手く改良できるのか
━━━━━━━━━━━━━━━━━
人間は自分の感覚でAIを設計してしまう。
でもAIは人間とは違う思考回路で動いている。
同じモデル同士(例:Claude×Claude)なら
コーチは選手の「失敗パターン」を自分ごととして理解できる。
「ステップ14で迷子になったのは、こういう情報不足が原因だ」
→ 的確な改善ができる
これを「モデル共感」と呼ぶ。
人間よりもモデルのほうがモデルを理解するのが上手い。
━━━━━━━━━━━━━━━━━
💡 プログラムしていないのに出現した改善行動
━━━━━━━━━━━━━━━━━
・スポットチェック:小さな編集は単体タスクだけで検証して高速化
・強制検証ループ:自己修正ターンをバジェットに組み込む
・自前テスト作成:タスクエージェントが自分でユニットテストを書く
・プログレッシブ開示:長いコンテキストはファイルに退避
・サブエージェント生成:ドメインに応じて自律的に役割分担
設計していないのに、勝手に賢くなっていった。
━━━━━━━━━━━━━━━━━
📌 なぜこれが重要なのか
━━━━━━━━━━━━━━━━━
・企業には自動化すべきワークフローが「数百」ある
・それぞれ異なるハーネスが必要
・人間チームが数百のハーネスを手動調整するのは不可能
→ AutoAgentはその問題を解く「エージェント群のインフラ」
「成功の定義さえ与えれば、ハーネスはメタエージェントが考える」
━━━━━━━━━━━━━━━━━
✅ まとめ
━━━━━━━━━━━━━━━━━
・ハーネス設計という職人作業をAIが自動化できる時代に
・コーチ(メタ)と選手(タスク)を分けたことで両方が専門化
・失敗の「軌跡(トレース)」を読ませることが改善の鍵
・同じモデル同士のペアリングが最も効果的
「エージェントを設計する」仕事が、
近いうちに「エージェントに設計させる」に変わるかもしれない。
OSSで公開済みなので、気になる方はぜひ覗いてみてください。
github.com/kevinrgu/autoa…

Kevin Gu@kevingu
日本語

pocで使ってみるのは良さそう
Keisuke Nishitani@Keisuke69
というわけで早速やってみた!それっぽい構成ができあがってる。構成図はもう少し見やすくなるといいとは思うものの。全部AWSで閉じ込める構成になってるところとか、このままIaCのコードまで吐き出してくれるようになったら最高。 Findy Architecture AIで、開発したいサービス構成を可視化してみました! Next.js×Nest.js構成のWebアプリにECS+RDS+CloudFrontを採用。コスト最適化とセキュリティを両立しつつ、GitHub Actions CI/CDでスムーズなデプロイを実現したAWS構成です。 #FindyArchitectureAI via @findy_tools
日本語
