LiHua Chen
401 posts

LiHua Chen
@leochenlh
Focus science, engineering and business. The founder & chief engineer of redfeed& lokica https://t.co/ULAIToc2ah ex-founder of fellou.

很多人还不知道,AI 编程助手正在经历一场安静的范式迁移—— 从 IDE 插件,迁移到终端命令行。 Claude Code 率先证明了这条路可行。现在每个大厂都在做 CLI agent。 但有一篇论文刚刚把整个工程架构掰开讲清楚了,是我今年读到最有价值的 AI 系统设计文章之一。 作者 Nghi D.Q. Bui 花了很长时间把 OPENDEV(用 Rust 写的开源编程 agent)做出来,然后把踩过的坑全写成了技术报告。 以下是最值得记住的几个工程洞见: 1. 上下文不是缓冲区,是预算 一个典型 session 里,工具输出(文件内容、命令结果、搜索)会占掉 70-80% 的 context。 所以正确做法是渐进式压缩,而不是"等溢出了再一次性清掉": • token 压力 >80%:把旧观察替换成引用占位符 • 85%:快速剪枝旧工具输出 • 99%:才触发 LLM 全量压缩 工具输出超过 8000 字符?直接写文件,context 里只留 500 字预览 + 路径。 把"上下文消耗问题"变成"检索问题"——检索只花一次工具调用,但 context 消耗是每次 LLM 调用都在付费的。 2. 指令会随对话衰减,解法不是"多写" 超过 15 次工具调用后,模型对 system prompt 里的指令遵从率会显著下降——它们还在 context 里,但注意力已经漂移了。 很多人的直觉是"把 prompt 写得更长更详细",这反而更差。 正确做法:在决策点前注入短小的 role: user 提醒,而不是在 system prompt 堆砌所有内容。 user 角色比 system 角色有效,因为模型对最近的用户消息权重更高。但每种提醒必须有频率上限——注入太频繁会被模型当噪音忽略。 3. 把思考和行动拆成两次 LLM 调用 当工具 schema 存在于调用上下文中,模型倾向于快速行动而非深度思考。 解法不是告诉它"先想清楚再做",而是在 thinking 阶段完全不传工具 schema。 没有行动选项,模型才会真正推理。这比任何 prompt 指令都管用——改变的是 API 调用结构,不是自然语言描述。 4. 让危险工具不可见,而不是被拦截 在 schema 里直接移除某个工具,远比运行时权限检查更安全。 模型无法推理它不知道存在的能力,无法论证为何该被允许,也无法探测权限边界。 "没有路"比"有护栏"更可靠。 5. LLM 输出是近似正确的,系统要为此设计 文件编辑失败的最大原因不是 agent 意图错误,而是它复现目标文本时有细微偏差——多一个空格、换行符不同。 所以工具应该内置渐进松弛匹配链:精确匹配 → 去首尾空格 → 标准化空白 → 模糊匹配。每一级返回文件中实际存在的内容。 把"近似正确"变成成功,而不是让 agent 进入错误恢复循环。 ─── 这篇论文最有价值的地方不是算法突破,而是把大量工程权衡和失败案例全部公开了——而 Claude Code、Cursor 这些商业系统全都是黑盒。 如果你在做任何 AI agent 系统,值得全文读一遍。 arxiv.org/abs/2603.05344







字节跳动 @Trae_ai 发布的这份「2026 企业级 AI 编程实践手册」质量不错,推荐朋友们看看。 第一部分:AI 时代的企业级编程方法论 对 Context Engineering、Skills、MCP、Spec、Rules、Agent 等做了很详尽的分享。 第二部分:用 TRAE 开发 TRAE 的实践 一个很典型的 AI Coding Agent 的自举过程,很实战,值得细看。 在第一部分中,TRAE 的分享了他们沉淀和推荐的 MCP 和 Skills,一起看看。 MCP Servers Top 10: 1. Context7 2. Puppeteer 3. Sequential Thinking 4. GitHub 5. Figma AI Bridge 6. Playwright 7. Memory 8. Excel 9. File System 10. Chrome DevTools MCP bytedance.larkoffice.com/wiki/SOQXwFtwm… Skills Top 10: 1. frontend-design 2. cache-components 3. fullstack-developer 4. frontend-code-review 5. code-reviewer 6. wepapp-testing 7. pr-creator 8. fix 9. update-docs 10. find-skills bytedance.larkoffice.com/wiki/YQWWwcyEB… 手册在线地址: lcnziv86vkx6.feishu.cn/wiki/XZOSwI51w…

