Zhou

81 posts

Zhou

Zhou

@yazhou_dev

Entrou em Ocak 2026
1.1K Seguindo12 Seguidores
Zhou retweetou
meng shao
meng shao@shao__meng·
OpenAI Codex - Agent Skills Best Practices 只有四句话: 1. Keep each skill focused on one job. 2. Prefer instructions over scripts unless you need deterministic behavior or external tooling. 3. Write imperative steps with explicit inputs and outputs. 4. Test prompts against the skill description to confirm the right trigger behavior. developers.openai.com/codex/skills 1. Keep each skill focused on one job Skill 职责边界要单一: · description 越单一,模型越容易判断“这次该不该用这个 skill” · 一个 skill 做太多事,会出现触发不准 · 维护时也更容易改坏别的场景 举个例子: · 不推荐:fullstack-helper,既管数据库,又管前端,又管部署 · 推荐:postgres-query-tuning、playwright-ui-debug、release-note-writer 判断标准: · 你能不能用一句话说清“它只解决什么问题” · 用户提一个任务时,你能不能很快判断“该用它”还是“不该用它” 2. Prefer instructions over scripts unless you need deterministic behavior or external tooling 默认先写清楚步骤,不要一上来就写脚本,为什么: · 说明文字更灵活,模型可以根据现场情况调整 · 脚本需要维护、兼容环境、处理错误,成本更高 · 很多任务本来只是“怎么做”的问题,不一定需要固定程序 文档也给了两个例外: · 你需要确定性行为 例如输出格式必须严格一致、每次都要按同样流程执行 · 你需要外部工具 例如调用 ffmpeg、数据库客户端、测试命令、浏览器自动化工具 可以这样理解: · 能靠明确步骤完成,就先用文字 · 只有在“必须固定”或“必须调用工具”时,再加脚本 3. Write imperative steps with explicit inputs and outputs 用命令式写法,输入输出写明白: · 用“先做 A,再做 B,然后检查 C” · 不要写成背景介绍、经验分享、长篇解释 输入输出写明白指的是: · 输入是什么:用户给什么、文件在哪、参数是什么 · 输出是什么:生成什么文件、返回什么格式、最终要交付什么结果 不好的写法: “分析代码库并给出建议。” 更好的写法: “读取 package.json 和 src/ 下的构建配置,找出构建失败原因。输出一个按严重程度排序的问题列表,并给出最小修改方案。” 4. Test prompts against the skill description to confirm the right trigger behavior. Codex 会根据 description 做隐式匹配,所以你写完 skill 后,不能只看内容是否正确,还要测“会不会在对的时候被选中,在不对的时候不被选中”。 应该怎么测: · 用 3 到 5 个“应该触发”的提示词试一下 · 再用 3 到 5 个“看起来有点像,但其实不该触发”的提示词试一下 真正要验证的是: · description 是否太宽,导致误触发 · description 是否太窄,导致该触发时没触发 · skill 名字、说明、步骤之间是否一致 最后 - 给咱们的参考:一个好的 skill,应该同时满足 · 触发边界清楚 · 步骤可执行 · 结果可检查 · 只有在确实需要时才引入脚本
meng shao tweet media
English
1
6
21
2.5K
Zhou
Zhou@yazhou_dev·
好工具
sitin@sitinme

Claude Code 我用了半年,才发现一个很离谱的点:上下文什么时候烧满,我是完全没感觉的。 最开始我还以为是模型抽风——写着写着突然变笨,前面说好的逻辑不认了,甚至开始自相矛盾。后来才反应过来:不是它变傻了,是上下文早就爆了。 最近发现一个叫 Claude HUD 的插件,干的事特别简单——在终端底部加一行状态栏,实时显示上下文占用百分比、当前用的什么模型、工具在调什么、子 Agent 跑到哪了。就一行信息,但装上之后真的回不去了。 安装就三步,在 Claude Code 里敲: /plugin marketplace add jarrodwatts/claude-hud/plugin install claude-hud/claude-hud:setup 重启就能用。 我觉得这个插件最值钱的就是那个上下文进度条。它读的是 Claude Code 原生的 token 数据,不是估算的,颜色会从绿变黄变红。 绿色就放心用,黄色该注意了,红色就得考虑压缩或者开新会话。到了 85% 以上还会自动展开明细,告诉你输入输出各用了多少 token,钱到底花在哪了。 说实话,这个东西解决的不是什么高深的技术问题,它解决的是信息差。AI 工具现在能力都很强,真正卡效率的反而是你跟工具之间的信息不对称——它知道自己在干什么,你不知道。 上下文悄悄满了你没察觉,子 Agent 跑偏了你没看见,token 烧了多少心里没数。这些事单个都不大,但积少成多,整个开发体验就变得不可控了。 Claude HUD 就是把这层窗户纸捅破了,该看到的信息都摆在眼前,你随时能判断是继续推进、压缩上下文、还是干脆开个新会话。 好的工具不只是帮你干活,还得让你清楚它在干什么,这才是用起来真正踏实的状态。

日本語
0
0
0
2
Zhou
Zhou@yazhou_dev·
review & ack 确实是很大的效率痛点
Michael Guo@Michaelzsguo

我大胆预测一下: Claude Code 团队两天内就会把这功能学过去。 Coding Agent Cline刚刚发布了开源的Cline Kanban,直接把 coding agent 的用法往前推了一大步。 当下用Coding Agent的痛点其实很明显。譬如你用 Claude Code 写代码,很多时候不是在写,而是在等。一个 agent 跑 8 到 10 分钟,人基本只能挂着。想多开几个并行?很快就进 merge conflict 地狱。 Cline Kanban 的思路很妙:你不再自己盯着一个 agent 从头跑到尾,而是像个工程经理一样分派任务,agent 变成真正干活的 IC。 Cline Kanban流程也很顺: 在 sidebar 里描述任务,它自动拆成 kanban 卡片;每张卡点一下 play,就自动创建 git worktree,再拉起一个独立 agent;多个 agent 并行推进,彼此隔离,不互相踩;看板里实时看进度;做完直接 review diff,留 inline comment 修正;满意了就 commit 或开 PR。 我拿 OpenClaw Rover 项目做了一个测试和展示,只描述了两个任务,Cline Kanban 就自动建卡、建 worktree、分配 agent 并行开发。最后我直接 review 和提 PR,整个过程几乎零切换,零冲突。 而且它支持 Claude Code、Codex、Cline,基本任何 CLI agent 都能接进来。 Cline Kanban给 multi-agent 协作做出了第一个像样的操作台。人从此真正成为 agent 的指挥者, 管理者。

中文
1
0
1
23
Zhou retweetou
meng shao
meng shao@shao__meng·
Deep Agents 评估体系构建指南 来自 @LangChain 团队 @Vtrivedy10 的深度分享: 最佳 Agent 评估直接衡量生产中真正关心的具体行为,而非盲目堆积数量。评估不仅是测试,更是塑造 Agent 行为的“向量”——每项保留的评估都会长期施加压力,引导系统提示、工具描述和整体设计。 评估构建原则 · 从生产行为逆向设计:先明确目标行为(如跨多文件检索、5+工具链式调用),再精准挑选或编写可验证的评估。 · 自文档化+标签化:每项评估添加 docstring 说明测量能力,并打标签(如 tool_use),便于分组运行和维护。 · 迭代闭环:通过 LangSmith 痕迹分析失败模式,团队共享责任,定期审视并精简评估,避免“评估越多越好”的幻觉。 数据来源 · dogfooding:日常使用中每处错误都转化为新评估,并优化上下文工程。 · 外部基准适配:精选并修改 BFCL、Terminal Bench 2.0 等任务,置于沙箱环境运行。 · 手工编写:针对孤立行为(如 read_file 工具)的焦点测试。 评估分类(taxonomy) 按实际测试内容而非来源分组,获得“中间视角”而非单一总分或单个用例。团队定义的类别包括: · file_operations:文件工具(读写编辑 ls grep glob)、并行调用、分页 · retrieval:多文件信息查找、搜索策略、多跳文档合成 · tool_use:工具选择、多步链式调用、跨轮状态跟踪 · memory:回忆种子上下文、提取隐式偏好、持久化信息 · conversation:模糊请求的澄清提问、多轮对话正确动作 · summarization:上下文溢出处理、摘要触发、压缩后信息恢复 · unit_tests:SDK底层机制(提示透传、中断配置等) 指标体系 · 第一优先级:正确性 内部评估用自定义断言(如“是否并行工具调用”);外部基准用精确匹配;语义任务用LLM-as-judge。 · 第二优先级:效率(正确性达标后对比) 关键指标:延迟比(latency ratio)、解决率(solve rate,归一化预期步骤)、工具调用数、步骤数。 · 参考基准:理想轨迹(ideal trajectory)——最少必要动作、无冗余、并行优化的路径。 示例:同一正确任务,“低效轨迹”可能增加2步、1次多余调用,导致更高延迟、成本和潜在失败风险。 执行框架 · pytest + GitHub Actions CI,在干净环境中运行。 · 按标签运行子集(节省成本),聚焦特定场景(如文件操作密集型)。 · 完整开源于 Deep Agents 仓库,支持多模型并行实验。
meng shao tweet media
Viv@Vtrivedy10

x.com/i/article/2036…

中文
11
7
40
8.5K
Zhou retweetou
李不凯正在研究
默默做了个决定,以后尽量不看中文账号的内容了,然后努力咬牙把 Anthropic 每篇文章都认真精读一遍。 虽然精华进,不一定精华出,但垃圾进,一定垃圾出。
Anthropic@AnthropicAI

New on the Engineering Blog: How we designed Claude Code auto mode. Many Claude Code users let Claude work without permission prompts. Auto mode is a safer middle ground: we built and tested classifiers that make approval decisions instead. Read more: anthropic.com/engineering/cl…

中文
90
114
1.6K
879.3K
Zhou retweetou
陈成
陈成@chenchengpro·
同一个 AI 模型,同一个基准测试,跑两次。 第一次 42%,第二次 78%。 什么都没换——不是 prompt,不是温度参数,不是模型版本。唯一变的是 harness:包裹在模型外面的规则、工具、技能文件和反馈循环。 这可能是 2026 年 AI 工程领域最重要的发现。它有了一个正式名字:Harness Engineering。 核心哲学一句话说清——Terraform 创始人 Mitchell Hashimoto 的定义:每当 agent 犯一个错,你就工程化地确保它永远不再犯同样的错。不祈祷更好的模型,修系统。 五个配置杠杆: ① 系统提示文件(CLAUDE.md)— 控制在 60 行以内,只写硬规则。ETH Zurich 测了 138 个 agent 配置文件,发现 AI 生成的反而拉低性能还多耗 20% token ② Skills — 渐进式知识披露,agent 按需加载指令模块,不把上下文窗口塞满无关信息 ③ MCP 服务器 — 连接外部工具扩展能力,但别超过 3 个,否则 agent 会陷入"tool thrash",纠结选哪个工具而不是干活 ④ Sub-agents — 不是分前后端角色,是做上下文防火墙。长任务委派给子 agent 隔离执行,主线程保持干净。Chroma 研究证实模型在长上下文下表现显著下降 ⑤ Hooks — 在工作流关键节点插入确定性检查。LangChain 加了一个 PreCompletionChecklistMiddleware,成了他们整个 harness 里提升最大的单一改动 实战数据:LangChain 靠 harness 优化,coding agent 从 Terminal Bench 2.0 排行榜 30 名开外直接冲进前 5。OpenAI Codex 团队用这套思路构建了超 100 万行代码的生产应用,零行人类手写。 关键洞察:模型正在商品化,所有公司都能调用同样的前沿模型。但 harness 不可复制——它根植于你的代码库、团队模式和领域边界,是靠周复一周把真实失败编码进系统积累出来的。 Prompt engineering 是 2023,Context engineering 是 2025,Harness engineering 是 2026。 零成本,零新工具。只需要改一个习惯:agent 出错时别手动修完就算了,问自己"怎么让它永远不再犯这个错",然后把答案写进 harness。每周五花 5 分钟回顾本周失败,每个失败加一条规则。你的 agent 会每周变强——不是因为模型升级了,是因为你的系统升级了。
Nav Toor@heynavtoor

x.com/i/article/2037…

中文
15
51
270
66.3K
Zhou retweetou
Xiaowen
Xiaowen@ixiaowenz·
其实理解 LLM 挺简单的。 如果你希望从一个正态分布的统计模型里获得 99% 的分位咋办? 不断分层正态分布,直到无限趋近于极值。 所以无论是知识,任务,都在说分层的问题,你对真实世界能建模,抽象,分层,那么模型就能解决你的任何问题。
中文
2
8
32
4.4K
Zhou retweetou
Xiaowen
Xiaowen@ixiaowenz·
创业的本质是对世界输出秩序。 其实这也是创造的本质。 那么使用 LLM,如果你能从里面高度获得确定性,说明你输出了能够说服 LLM 的秩序。 如果你频繁感觉抽卡,那么说明至少有很大部分你的秩序尚未被采纳,还是混沌的。
中文
2
4
55
2.8K
Zhou retweetou
陈成
陈成@chenchengpro·
OpenAI 悄悄给 Codex 上了一套插件系统,本质上就是 AI 编程代理的包管理器。 深读了一遍官方文档,信息量很大,拆给你看: 一个插件打包三样东西: • Skills — 工作流提示词,代理在交互中"渐进式发现" • MCP Servers — 远程工具和共享上下文 • Apps — 应用集成 / 连接器 架构设计明显借鉴了 npm:plugin.json 对标 package.json,语义化版本,安装缓存,Marketplace 对标 registry。但管理的不是代码依赖,是 AI 代理的能力。 分发走三层 Marketplace: ① 官方目录(OpenAI 策划,尚未开放发布) ② 仓库级(marketplace.json 提交到 repo,团队克隆即用) ③ 个人级(放 home 目录,私有工作流) 几个值得注意的设计细节: 1)plugin.json 的 interface 对象里有 brandColor、logo、screenshots、defaultPrompt——这是商店级的展示字段,说明官方插件商店已经在路上了 2)installation policy 有三档:AVAILABLE / INSTALLED_BY_DEFAULT / NOT_AVAILABLE,团队管理员可以强制安装或禁用特定插件 3)Skills 的核心理念是"提示词即代码"——用 Markdown + frontmatter 写,按目录组织,版本化管理,打包分发。Prompt engineering 正式从调参技巧升级为软件工程 4)渐进式发现机制意味着 Skill 的 description 写得好不好,直接决定代理能不能在正确时机找到它。这比 instruction 本身更关键 当前局限:官方目录未开放,source 只支持 local,安全模型文档不完善。但从架构完整度看,OpenAI 对插件生态是认真的。 现在是提前占位的好时机——把你的 AI 工作流封装成插件,等商店开放时你就是第一批。 developers.openai.com/codex/plugins
中文
2
17
66
16.2K
Zhou retweetou
sitin
sitin@sitinme·
Claude Code 这东西,用过的人应该都有同感:顺的时候,一下午能干三天的活;不顺的时候,上下文一满就开始“胡来”,改着改着把原本好的东西搞坏,还一本正经跟你说 “I’ll fix that for you”,真的能把人整崩溃。 后来我才反应过来——不是工具不行,是我们不会“调教”。 最近 GitHub 上有个项目直接爆了,叫 Everything Claude Code。作者是 Anthropic 黑客松冠军,把自己用 Claude Code 做了 10 个月真实项目的经验,全打包成一套“可直接安装”的插件。说白了,它不是让模型更强,而是帮你把“怎么用 AI 写代码”这件事,直接标准化了。 它里面最有意思的几件事: 第一是“记忆”。 Claude Code 最大的问题就是失忆,这个插件直接用 Hooks 给你补上:开新会话自动加载项目上下文,结束自动保存。你不用每次重复讲项目结构、技术选型这些废话了。 第二是“学习”。 每次写完一轮代码,它会自动总结你的习惯——怎么写错误处理、怎么组织文件、怎么写测试,然后变成可以复用的“直觉”。用久了,你会明显感觉它越来越像你自己。 第三是“分工”。 它不是一个 AI 干所有事,而是拆成一堆子 Agent:有人专门做规划,有人审代码,有人跑测试,有人查安全漏洞。复杂项目不再是一锅粥,而是像一个小团队在协作。 第四是“省钱”。 很多人没意识到,Claude Code 是按 token 计费的。这个项目直接帮你做模型分级、上下文压缩、提示词瘦身,本质就是一句话:该省的地方别乱烧钱。 这个项目最大的价值,不是某个功能有多牛,而是它给了一个思路:你可以主动设计 AI 的工作方式,而不是被动接受它的默认行为。 很多人现在还停留在“丢个需求给 AI 等结果”的阶段,但真正效率高的人,已经在开始“搭系统、训流程、养 Agent”了。
sitin tweet mediasitin tweet mediasitin tweet mediasitin tweet media
中文
3
57
210
18.1K
Zhou retweetou
Nagi Yan
Nagi Yan@naki2012·
《软件工程的终点不是代码,而是现实》 如果观察最近几年AI的发展,会发现一个非常明显的趋势: 软件开发正在成为第一个被彻底改变的行业。 过去几十年,软件工程师一直是高门槛、高收入、高技术密度的职业。但随着AI逐渐能够生成代码、修复Bug、设计架构,很多人开始产生一种不安: 软件工程师会不会不需要了? 这个问题如果只停留在“AI能不能写代码”,其实看得太浅。真正发生变化的不是写代码这件事,而是整个职业价值所在的位置正在移动。 软件行业只是第一个被冲击的行业,但不会是最后一个。通过推演软件工程师的变化,几乎可以看到未来大多数职业的演化路径。 一、过去的软件工程师,价值来自执行难度 在过去,优秀工程师的核心价值来自于对底层细节的掌握。 你需要熟悉语言、框架、操作系统、网络协议、数据库、性能优化、调试技巧,还要踩过大量坑。一个系统能不能做出来,很大程度取决于工程师是否足够有经验。 那时候最大的瓶颈是: 人写代码太慢。 所以谁更懂机器,谁更有价值。 软件工程的本质,是在高摩擦环境下完成复杂执行。 也正因为摩擦大,专业训练才有价值,科班背景才有优势,经验才会形成壁垒。 二、AI出现之后,执行层的摩擦正在被抹平 AI带来的最大变化,不是代码生成,而是执行成本的急剧下降。 现在你可以直接说: 给我一个支持高并发的订单系统 给我一个带权限控制的后台 给我一个数据分析平台 AI就能生成一个可运行的版本。 这意味着,软件开发中最耗时间、最需要经验的部分,正在被自动化吞掉。 当执行变得廉价,专业壁垒就会塌。 这和历史上很多技术演进是一样的: 从汇编到C 从C到Java 从Java到Python 从Python到low-code 每一次,底层知识都没有消失,但都不再是进入行业的门票。 AI只是把这个过程推到了极致。 三、未来的软件工程,不再是写代码,而是定义系统 当执行不再是瓶颈,新的瓶颈就出现了。 不是做不出来,而是不知道该做什么。 你无法一句话让AI生成一个真正可用的系统,因为现实世界充满约束,而AI不会自动补全这些约束。 一个系统是否能落地,取决于你是否能回答这些问题: 这个系统解决什么问题 谁会用 在什么环境下用 有哪些成本限制 有哪些法律限制 有哪些性能边界 失败会发生什么 绝对不能发生什么 这就像向阿拉丁神灯许愿。 如果你的愿望没有写清条件,最后实现出来的结果,往往会击中你没有考虑到的那条约束。 未来的软件工程,本质会变成一件事: 约束工程。 不是Coding Engineering,而是Constraint Engineering。 四、真正稀缺的能力,从技术细节变成现实建模 一个系统失败,往往不是因为代码错,而是因为模型错。 用户模型错,产品就会失败。 负载模型错,系统就会崩。 成本模型错,商业就会死。 合规模型错,就会出法律问题。 人性模型错,团队就会崩。 AI可以生成代码,但AI不知道现实世界的隐含规则。 现实世界的约束来自经验、责任、冲突、损失和失败。 这些东西只有参与现实的人才知道。 所以未来的软件工程师,更像现实世界的建模者,而不是程序员。 他们要做的,是把现实翻译成系统,而不是把逻辑翻译成代码。 五、大量工程师会掉队,同时大量非科班会进入 当职业核心从执行转向建模,就会发生结构性的人员变化。 很多人以为会掉队的是技术差的人,其实更容易掉队的是只习惯在既有范式里优化的人。 如果一个人的能力全部集中在语言、框架、工具和流程上,那么当这些被AI吞掉时,他会突然发现自己的优势不再重要。 与此同时,大量非科班的人会进入软件行业。 因为未来的软件开发越来越像在解决现实问题,而不是在解决代码问题。 真正有优势的,可能是: 产品经理 行业专家 运营人员 设计师 医生 律师 制造工程师 科研人员 因为他们更熟悉现实世界如何运作。 未来的软件,更像把现实翻译成系统,而不是把算法翻译成代码。 战场变了,参与者自然也会变。 六、底层不会消失,但会变成少数人的领域 这并不意味着底层技术不重要。 操作系统、数据库、分布式系统、AI框架、芯片、网络、安全,这些领域依然需要极深的专业能力。 但需求量会远小于过去。 结构会变成一种典型的金字塔: 少数做底层的人 少数做系统定义的人 大量做AI+领域应用的人 传统工程师数量大幅减少 这是自动化之后几乎必然出现的形态。 农业如此,工业如此,软件行业也不会例外。 七、未来的软件工程师,更像导演,而不是工人 过去的软件工程师像木匠,需要自己锯木头、打钉子、刷漆。 后来像建筑师,负责设计结构,让别人施工。 未来更像导演。 不一定亲自写代码,但必须知道: 故事是什么 场景是什么 哪里不能出错 哪里必须重来 哪些限制不能突破 哪些细节观众看不见但必须存在 AI会成为演员、摄影、剪辑和特效。 而真正稀缺的,是能把整部电影拍出来的人。 这就是为什么很多人会觉得软件工程师正在消失。 其实不是消失,而是在升级。 只是升级之后,能留下来的人会更少。
中文
2
20
91
11.9K
Zhou
Zhou@yazhou_dev·
@i5ting 期待!
日本語
0
0
0
507
i5ting
i5ting@i5ting·
要不要写一篇文章呢?分析一下前端局面和ai影响,趋势
中文
42
1
55
33.6K
Zhou
Zhou@yazhou_dev·
@xicilion 👍🏻 请教使用什么把md文件渲染出来的slide呀?
中文
3
0
0
1.5K
Zhou
Zhou@yazhou_dev·
当前高级语言的抽象层次已经很高了,由于软件开发约束林林总总,比如需要各式各样的存储满足不同的场景,自然语言完备描述需求不总是比编程语言更简洁
Cat Chen, @[email protected]@CatChen

当下的 spec driven development 距离成功还很遥远,真正的 SDD 只需要定义业务逻辑,所有技术细节都交由 AI 进行优化。 举个例子,要不要在数据库前面放 cache 是实现细节,并不影响业务的正确性,spec 里面不应该定义,AI 应该自己分析系统当前流量数据然后自行决定。(AI 可以问我要数据访问权限。) 过一段时间产品流量上去之后,同一份 spec 一字不改让 AI 重做一遍,它应该根据流量数据重新设计系统。之前不需要 cache 现在可能需要了,之前不需要 sharding 现在可能需要了,麻烦 AI 把数据迁移做了。数据迁移不是业务正确性的一部分,spec 不会提及。 在这个过程中 AI 必须如同编译器一样。编译器保证程序员只关注高级语言不接触汇编语言。AI 必须保证使用者只关注业务逻辑不接触代码。当下 SDD 写完 spec 后又要接触 AI 生成的代码,这是一种失败模式。 这其中一部分原因是 AI 还做不到理想的 SSD,另外一部分原因是使用 SSD 的程序员还放不下,一定要亲自阅读甚至是调整 AI 生成的代码。如果使用高级语言的程序员总是喜欢手调编译器生成的汇编代码,那编译器的价值就会被大大削减,开发过程也会变得缓慢。

中文
0
0
0
11
Zhou
Zhou@yazhou_dev·
@xiongchun007 拉磨不易,希望大家都有个好磨
中文
0
0
0
29
程序员老熊
程序员老熊@xiongchun007·
年轻程序员在质疑自己是不是该离职时?领会这句话你就有答案了。 “拉磨的驴,走的路再长,也成不了千里马。” 如果是 35+ 那就苟着吧!不是说你离开就找不着工作,而是要真是千里马的话早成了。离开无非是换个地方继续拉磨而已(‐^▽^‐)🍺
程序员老熊 tweet media
中文
15
1
34
3.6K