
will
3K posts

will
@willzero
🤖 走在路上的独立开发者 🚀 All in AI 社区主创成员 💬 热衷交流分享,喜欢结交新朋友 🛠️ 探讨技术,享受生活 —— Ghost Programmer & Novelty seekers


GitHub 上一个叫《Learn Harness Engineering》的开源课程最近上了 Hacker News 首页(155 分、5.1k stars), 主题是 AI coding agent 的可靠性工程——也就是 OpenAI 和 Anthropic 最近几个月一直在讲的 harness engineering。 github.com/walkinglabs/le… 作者是清华 SIGS 的开源团队 walkinglabs,课程内容 12 节 lecture + 6 个实战项目,全部围绕同一个压轴项目(一个 Electron 知识库 app),目前已经有 13 种语言版本。 核心讲的是这几条: 1、Harness Engineering 是新概念但绝不只是营销: OpenAI 2026 年 2 月在 Codex 官方博客正式提出,Anthropic 同期发了两篇配套工程文章。这门课是把这两家分散的工程内容系统整理成中文可读的体系,不是发明新东西; 2、核心论点是模型不是问题,环境才是: Anthropic 自己跑过一个对照实验,同样的 Opus 4.5、同样的提示词("做一个 2D retro 游戏编辑器"),没 harness 花 $9 跑 20 分钟出不来;有完整 harness(planner + generator + evaluator)花 $200 跑 6 小时跑出来一个能玩的游戏。差距不在模型,在环境; 3、Harness 的 5 个子系统: Instructions(agent 看什么)、State(已经做了什么)、Verification(怎么算完成)、Scope(一次只做一个 feature)、Lifecycle(会话起手和收尾); 4、最小起手 4 个文件: AGENTS.md(操作手册)、init.sh(每次起手跑的环境检查脚本)、feature_list.json(机器可读的功能边界)、claude-progress.md(会话之间的进度交接)。这 4 个文件直接丢进你现有代码库就能用,不用读完 12 节课; 5、为什么 agent 总是搞砸(课程反复回答的几个问题): 一次想做 3 件事但 3 件都只做一半;说"done"但其实 test 跑不过;跨会话完全没有记忆,这次写到一半下次重头来;没有验证流水线就没有真完成(只有 test pass + lint pass + e2e pass 三件齐了才算); 6、6 个项目渐进式演进: P01 prompt-only vs rules-first 对照看差距、P02 把代码库改成 agent 能读的结构、P03 跨会话续接、P04 加运行时反馈控制范围、P05 让 agent 自验、P06 完整 harness 加可观测性; 7、压轴项目是个 Electron 知识库 app: 每个项目的答案就是下一个项目的起手代码——app 在演进,你的 harness 技能也在演进; 总结: "AI agent 工程师"这个角色正在从"会写提示词的人"变成"会搭 harness 的人"。 这门课本身不算硬核,但它把 OpenAI 和 Anthropic 两家工程博客分散的内容系统整理成了中文索引,对中文圈想入门这个方向的人来说,能省下读 5 篇英文工程博客的时间。


Great slide from the “How to thrive as an AI-era developer” session at Google I/O today I think this T-shape will apply to not just developers but every job function We need to - go deeper with our domain expertise - go wider with adjacent skills and fields - learn to use AI well on top


























