Dimon Dai
418 posts

Dimon Dai
@Scott__D
前9年ToB SaaS ,现在搞 AI https://t.co/gNUOrLAPPV Doing: https://t.co/sHA08cqC5g https://t.co/HNWrASiyKh https://t.co/HGcplPk2WN



AI Coding 现在开始进入一个很有意思的阶段。 过去大家讨论最多的是模型能力、上下文长度、Agent Loop、Tool Use、自动化编程,但真正把 Agent 长时间放进真实开发环境之后,很多团队发现问题已经不只是“能不能生成代码”,而是“系统能不能管理 Agent 的整个运行过程”。 因为 Agent 一旦连续运行几十分钟甚至几小时,workspace 会不断变化,shell 会持续执行,文件会被频繁修改,tool call 会越来越多,最后整个工程会进入一种非常典型的状态:代码已经变了,但没人知道为什么会变成现在这样。 很多 AI Coding 产品目前其实都存在这个问题,你能看到最终结果,却看不到完整过程,很难知道哪一步修改了文件、哪个 prompt 生成了代码、哪次执行引入了 bug、workspace 是从什么时候开始被污染的,也很难回放整个执行链路。 人类开发者有 Git,但 AI Agent 目前还缺少真正成熟的 runtime-level version control。最近越来越多团队开始重新思考 Agent Infra,本质上是在给 Autonomous Agents 补一层“软件工程基础设施”。 未来真正成熟的 Agent 系统,大概率都会具备 execution DAG、workspace snapshot、session timeline、tool tracing、persistent history、replay、time travel、audit log 这些能力,因为 AI Coding 下一阶段拼的已经不只是生成代码的能力,而是系统是否具备可追踪、可恢复、可审计、可回放的运行能力。 本质上都是让系统具备可追踪、可恢复、可审计能力。 最近看到一个很有意思的开源项目: github.com/regent-vcs/re_… 它做的事情非常直接,给 AI Agent 增加一层版本控制与 可观测基础设施。可以直接追踪某一行代码是在哪次 Agent 执行中生成的。 这个方向我觉得会越来越重要。 很多人现在还把 AI Coding 理解成“更聪明的 Copilot”,但整个行业其实已经开始往“Autonomous Software System”演化了 AI Coding 的下一阶段,拼的已经不只是模型能力了。 更像是在重新发明一套适用于 Autonomous Agents 的软件基础设施。

大家怎么看 superpowers、gsd、gstack、openspec 这些专注于 Coding Workflow 的项目? 我会从中汲取一些 有用的 skill,组成自己的 Research、Design、Plan、Develop、Test、Commit 工作流。





Codex 有个小增强工具叫 Codex++,我刚装完,解决了我用中转站以来可以说是最大的痛点! 它不增强模型能力,增强的是 Codex App 这个壳子。 最有用的两个功能: 1. 左侧会话列表可以真正删除,不只是归档 2. API Key 模式下,原本被锁住的插件入口可以解开 安装也不用看什么教程,直接把这个 GitHub 链接丢给 Codex,让它自己装好: github.com/BigPizzaV3/Cod…环境要求 装完之后 Cmd + Q 完全退出当前 Codex,然后去 Applications 里打开 Codex++.app,之后顶部菜单栏会多一个 Codex++,左侧会话悬停也会出现删除按钮。 这玩意儿的好处是,它不改原版 /Applications/Codex.app,只是用一个外部 launcher 启动 Codex,再通过 CDP 注入增强脚本,所以原版 Codex 还在,出问题也好回退。 一句话总结: Codex++ 不是“让 Codex 更聪明”,是让 Codex 用起来没那么别扭。

codex 全栈偏后端,前端UI不太行。 claude 全栈无侧重,非常全能。 gemini 设计师转前端,其他不太行。

Codex 的 Goal 模式已经连续跑了 25 小时了, 还没有停下来的意思。 项目已经推进到 “Phase 20F” 了, 我开始有些好奇, 它最后到底会给我生成一个什么东西了 。。。


今天codex plus的额度感觉太不禁用了 半个小时就把五小时用完了 昨天感觉比今天耐用 我想知道它这个额度是不是每天动态调整的?


如果想同时让 AI 改动一个代码库,开发多个不同功能。 最佳实践方案是用worktree吗? 产品经理真诚求问,感觉worktree用的迷迷糊糊的。



