Allen Cao
151 posts

Allen Cao
@AllenCao1997
AI × 生活思考 Algorithmic Logic. Life's Fluctuations
Katılım Ocak 2026
270 Takip Edilen54 Takipçiler

关于 Harness Engineering,看了不少文章,但很多内容停留在框架和概念层,这次把自己在大厂用 AI 的一些真实过程写了下来,也顺便做了次复盘。
有些地方可能和主流说法不太一样,但都是自己踩出来的结论。
Allen Cao@AllenCao1997
中文

宝玉老师的感触是对的。感觉大家现在对AI native的领会还是不够深。
worktree是一种歪路,是走偏了。为什么要让AI Agent一个人开很多work tree,做很多不同的事情呢?
应该是让AI Agent有多个分身,每个AI Agent它都有自己的事情,去在自己的工作流上做事情。
宝玉@dotey
没必要worktree,可以 clone 几份放在固定的目录,轮着用就够了,每次pull最新然后checkout一个新的branch,完成后提PR合并到main
中文

Claude Code 源码泄露之后,我仔细研究了一晚上。51万行 TypeScript,1903个文件,42个工具,每个有独立的 prompt 手册。
七层提示词组装,静态部分和动态部分切开,节省 token。三层上下文压缩,防止对话把窗口撑爆。多 Agent 架构,主线程、Subagent、Swarm 并行跑。KAIROS "做梦"模式,夜间自动整理日志变成结构化记忆。九层安全审查,加 YOLO 分类器——用小模型判断大模型该不该执行这条命令。
这些东西单独看都不稀奇。但它们组合在一起的方式让我重新思考了一件事:我们在讨论 AI 工具的时候,总是在说"模型够不够强"。但 Claude Code 展示的是另一种思路——把模型当作一个需要在系统约束下运行的组件,而不是一个可以自由发挥的万能大脑。
中文

最近在找几类配合 Coding Agent 的 App,分别是:
1. Skills 管理,最终选择 xingkongliang/skills-manager
2. 多 Agent 管理,最终选择 ShawnPana/smux,使用tmux-bridge 来控制终端,非常优雅。
3. 手机控制,出来很多新的App,但是还是选择 happy coder
4. 看板,用来拆分需求,创建worktree,驱动不同的 Agent 完成。选 Conductor 或 Cline Kanban。看板app多用于维护现有代码库,比较整洁,但从头写代码我更喜欢 smux。
5. Desktop 应用。用来做一些非编码任务,但是这类应用已经井喷,用不完。Codex App 就很好用,如果没有订阅的话,可以看看 Alma 等。
个人偏好是选择封装而不是替代,底层尽量保持 Claude Code、 Codex或 OpenCode。
中文

现在已经很少有人提及 Prompt Engineering,大量提示词都是 Agent 实现的(比如 Skill 中的内容通常是 Skill-Creator 写的),那 Prompt Engineering 还有价值么?
我认识他的价值会「越来越突出」。
这种突出不是“掌握某种框架结构”(类似 CO-STAR 结构),或者“某些 Magic word”(类似“一步步思考”),而是「对特定领域下特定提示词会造成模型倾向的精准把握」。
以下是详细解释:
在 Harness Engineering 语境下,“稳定、高质的 Agent 产出”通常来自于:一个有验收标准的 Loop,如果一轮的输出没有达标就再来一轮。
比如:“写需求”被拆解为如下 Loop:
design -> spec -> plan -> TDD -> review -> 完成
如果 review 不通过则回退到 plan 或 TDD
其中,“可量化的验收标准”通常指:测试用例、Linter、性能指标
“不可量化的验收标准”通常是主观判断,比如:
前端 UI 生成质量的判断标准 —— UI是否是一个有机整体的感觉,而非零件的拼凑?
在设计“不可量化的验收标准”的 Loop 时,Agent 一遍遍循环的过程中,其实就是在向「模型对该提示词的倾向」靠拢。
比如:如果你的验收标准就是粗糙的“生成的 UI 要高级”。那 Claude 跑通过后的 UI 大概率是“紫色渐变风格”,因为 Claude 倾向于认为“高级 UI”就是“紫色渐变”。
所以,Harness Engineering 模式下,Loop 其实放大了「模型对提示词的倾向」,因此更凸显了提示词的价值。
中文











