Ace
113 posts

Ace
@ZaceCrypto
不过些许风霜罢了 | NFA DYOR | 努力努力再努力x | ai工程师
Katılım Haziran 2023
1.9K Takip Edilen706 Takipçiler
Ace retweetledi

New on the Engineering Blog: How we designed Claude Code auto mode.
Many Claude Code users let Claude work without permission prompts. Auto mode is a safer middle ground: we built and tested classifiers that make approval decisions instead.
Read more: anthropic.com/engineering/cl…
English

gstack是啥,为啥stack有用呢?
gstack 是 Y Combinator CEO Garry Tan 的 Claude Code 个人工作流工具集,核心理念是把 Claude Code 变成一个优秀的虚拟工程团队。
Garry Tan 声称用这套工具,在兼职运营 YC 的同时,60 天内写了 60 万行生产代码,每天 1-2 万行。
这看起来很夸张,而且这是生产代码,是直接上线使用的,那么为什么他有用呢?
主要跟Claude的激活机制有关,Claude 的训练数据里有海量的人类写作——包括无数 staff engineer 写的代码审查、YC partner 给创业者的反馈、设计师的批评报告、QA 的 bug 报告。当你说"你是 staff engineer,找生产环境会炸的 bug",你实际上在做的是激活一个特定的行为分布。模型会从"staff engineer 做 code review"这个模式里采样,而不是从"助手帮用户完成任务"这个更泛的模式里采样。
这两个分布的差异是巨大的:
- 助手模式:倾向于夸奖、找到可行方案、让用户满意
- Staff engineer 模式:倾向于挑刺、找边界条件、预测失败
机制一:角色=激活不同的注意力
每个角色天然关注不同的维度:你没法同时以 CEO 的视角(扩大产品愿景)和 CSO 的视角(缩小攻击面)思考。把它们分开,每个视角才能走到极致。
机制二:序列化避免认知干扰
人类专家团队开会,往往一个人说了一半,另一个人岔开话题,最后谁的视角都没走到底。
gstack 的流程是:Think → Plan → Build → Review → Test → Ship每一步完全结束才进入下一步。。每个角色不是从零开始,而是在前人工作的基础上批判。
机制三:强制对抗性思维
你是否在想普通的"帮我 review 代码"也会得到鼓励性反馈。但:
- /review 的 persona 是"找生产会炸的 bug"——这个 framing 把默认模式从"找优点"变成"找缺陷"
- /plan-ceo-review 会主动质疑你的问题定义,而不是直接解决你提出的问题
- /cso 有明确的 false positive 排除清单和置信度门槛——强制精确,不允许模糊
本质是:把任务的成功标准从"让用户满意"变成"找到问题"。
机制四:具体评分标准 > 模糊指令
/plan-design-review 会对每个设计维度打 0-10 分,并解释"10 分长什么样"。这比"帮我优化设计"强在哪?
模糊指令:帮我优化设计→ Claude 不知道优化的终止条件,容易给泛泛建议具体标准:信息层次 6/10,10 分应该是 X,现在差在 Y→ Claude 有了明确的 delta,知道要往哪里走
评分系统把"主观审美判断"转化为"有终止条件的工程问题"。
机制五:真实工具打破幻觉
/qa 和 /browse 用的是真实 Chromium 浏览器。
这很重要,因为 LLM 天然倾向于幻觉性地假设代码能工作。让它真的点击按钮、看到真实错误,强制把"我认为它应该工作"变成"我看到它实际上坏了"。
真实反馈回路 > 推理。一个真实的react最能说明问题
总结:为什么一个人能有团队速度
普通用法:一个 Claude,一个视角,试图同时考虑所有事情→ 每个维度都走不深,容易妥协
gstack: 多个专门化的 Claude,串行激活不同分布→ 每个维度走到极致,强制对抗性检查
本质上,gstack 把"一个全能助手"拆成了"多个有偏见的专家"——而有偏见的专家,比全能助手更能发现问题。这也是为什么真实团队里有专门的 QA、专门的安全工程师、专门的设计师。不是因为一个人不够聪明,而是因为专门化的注意力本身就是一种能力。
github.com/garrytan/gstack
中文

最近在看learn-claude-code和open-code的代码,主要推荐learn-claude-code的思想
1."Agent" 从来都不是外面那层代码。Agent 永远是模型本身
他告诉我们,智能源自大脑,而不是源自工具,就像人和动物的区别是能够制造工具进行生产劳动,而不是工具是智能
2.提示词水管工式 "Agent" 是不做模型的程序员的意淫
大多数人学 AI Agent 走偏了。他们在学"如何编排 prompt",但真正的问题是:如何为一个已训练好的模型构建运行环境?
3.整个 agent loop 只有 30 行!
stop_reason 是唯一的控制机制。没有状态机,没有条件跳转。模型自己决定何时停。
4.反直觉--压缩效果更好?
子 agent 的中间推理过程全部丢弃,只返回摘要。"战略性遗忘"比"完整追踪"更有效。
总结:复杂的多 agent 系统,本质上还是那个最简单的循环,这种简单高效让claude code产生别致的美学
github.com/shareAI-lab/le…
中文

我是 Ace (@zmzhace),一名专注于 AGI 与 Agentic AI 的算法工程师。
我坚信智能体(Agents)是通往 AGI 的必经之路。在过去的一段时间里,我从算子层的性能优化到应用层的复杂 Agent 调度进行了全链路的探索。
目前,我正在寻找【Agent 研发 / 机器人 / AGI 研究】相关的 [全职 / 远程] 机会。
---
🚀 我在做的核心项目 (Building in Public):
1️⃣ SeedWorld: 涌现式 LLM 社交模拟引擎 (241+ Stars)
探索 Agents 在资源竞争、名誉系统与社会交互中的自治行为。不设预定脚本,让 Agent 在动态环境中产生“独立意志”。
🔗 GitHub: github.com/zmzhace/SeedWo…
2️⃣ Open-Cowork: 极致效率的 Pure-Vision Computer Agent
桌面自动化智能体。主攻“纯视觉”驱动,摆脱传统的 DOM/API 依赖,实现更通用的计算机操控能力。
3️⃣ memfog: AI 记忆与长短期上下文管理
为 Agent 打造可追溯、高价值的数据记忆中枢,解决 RAG 落地中的“遗忘”与“幻觉”痛点。
---
💡 我的技术底座与背景:
✅ 工业级 Agent 落地:在【招商基金】主导金融风险领域的 RAG 架构与多 Agent 协作流落地,月均 Token 消耗达 10 亿级。
✅ 模型对齐与微调:在【阿里巴巴/蔚来】负责 13B 规模模型的 SFT 与 DPO 指令对齐,显著提升指令遵循能力。
技术栈:Python/C++, PyTorch, DeepSpeed, LangChain/LangGraph, FastAPI, React/Next.js.
---
📫 关于我的未来:
我是一个极客型的开发者,口头禅是 "I want to be a PhD"。我热衷于攻坚那些“看起来不可能”的 Agent 交互难题。
如果你在构建最前沿的 AI Agent 产品,或者你的团队正在寻找一名既懂算法底座、又具备全栈开发能力的工程师,请随时 DM 我或通过以下方式联系:
📧 Email: zmzhace@gmail.com
🏠 Blog: zmzhace.github.io
#Agent #AI #AGI #BuildInPublic #Hiring
中文

大概想了一下,如果要做一个撸毛skill,他的路径应该是
获取投研信息👉判断是否值得交互👉进行链上交互
当然如果是嘴撸又是另说
宇神@yushen686
下一步我会做一个自动撸毛的skill🦞大家觉得怎么样
中文








