foxhu

10.3K posts

foxhu

@foxhu007

AI developer. Love pytorch and golang.A Google lover.

Katılım Ağustos 2012

1.2K Takip Edilen182 Takipçiler

foxhu retweetledi

宝玉@dotey·23h

如何在 Codex App 使用 /goal 的简单说明： 1. 升级 Codex App 到最新版本 2. 先在命令行运行一下下面的指令： > codex features enable goals 或者手动修改 ~/.codex/config.toml [features] goals = true 3. 开头输入 /goal，或者点 + 弹出菜单中选择 4. 开始后，输入框上方可以暂停、编辑、删除

OpenAI Developers@OpenAIDevs

🥅 /goal has graduated from an experiment—for tasks big and small, Codex gets your work done. Use goal mode in the Codex app, IDE Extension, or CLI to give Codex a specific milestone, and it will keep working until it gets there, even across hours or days. You can check in and steer, and even pause Codex along the way. Pro tip: start side chats to understand the work that has been done so far without having to interrupt the main task. #goal-mode" target="_blank" rel="nofollow noopener">developers.openai.com/codex/promptin…

中文

319

56.6K

foxhu retweetledi

老韭菜南亥@daweifs·1d

用上 Karpathy 这招后，Claude/Cursor 代码质量直接起飞！兄弟们，我最近写项目被 AI 气吐血：自己脑补一堆假设、代码写得又臭又长、改个小功能还顺手把其他地方重构了。直到刷到这个神仓库： github.com/multica-ai/and… 直接把 CLAUDE.md 扔进项目，AI 瞬间老实了！先问清楚再动笔、代码能短就短、只改该改的地方，返工少了一大半，爽到飞起。最简单装法（30秒）： curl -o CLAUDE.md raw.githubusercontent.com/multica-ai/and… Cursor 的同学直接用里面的 rules 就行。真心推荐所有用 AI 写代码的都去 star 一下，真的香！

中文

176

1.1K

76.2K

foxhu retweetledi

Ren@FakeMaidenMaker·1d

GitHub 上一个叫《Learn Harness Engineering》的开源课程最近上了 Hacker News 首页（155 分、5.1k stars），主题是 AI coding agent 的可靠性工程——也就是 OpenAI 和 Anthropic 最近几个月一直在讲的 harness engineering。 github.com/walkinglabs/le… 作者是清华 SIGS 的开源团队 walkinglabs，课程内容 12 节 lecture + 6 个实战项目，全部围绕同一个压轴项目（一个 Electron 知识库 app），目前已经有 13 种语言版本。核心讲的是这几条： 1、Harness Engineering 是新概念但绝不只是营销： OpenAI 2026 年 2 月在 Codex 官方博客正式提出，Anthropic 同期发了两篇配套工程文章。这门课是把这两家分散的工程内容系统整理成中文可读的体系，不是发明新东西； 2、核心论点是模型不是问题，环境才是： Anthropic 自己跑过一个对照实验，同样的 Opus 4.5、同样的提示词（"做一个 2D retro 游戏编辑器"），没 harness 花 $9 跑 20 分钟出不来；有完整 harness（planner + generator + evaluator）花 $200 跑 6 小时跑出来一个能玩的游戏。差距不在模型，在环境； 3、Harness 的 5 个子系统： Instructions（agent 看什么）、State（已经做了什么）、Verification（怎么算完成）、Scope（一次只做一个 feature）、Lifecycle（会话起手和收尾）； 4、最小起手 4 个文件： AGENTS.md（操作手册）、init.sh（每次起手跑的环境检查脚本）、feature_list.json（机器可读的功能边界）、claude-progress.md（会话之间的进度交接）。这 4 个文件直接丢进你现有代码库就能用，不用读完 12 节课； 5、为什么 agent 总是搞砸（课程反复回答的几个问题）：一次想做 3 件事但 3 件都只做一半；说"done"但其实 test 跑不过；跨会话完全没有记忆，这次写到一半下次重头来；没有验证流水线就没有真完成（只有 test pass + lint pass + e2e pass 三件齐了才算）； 6、6 个项目渐进式演进： P01 prompt-only vs rules-first 对照看差距、P02 把代码库改成 agent 能读的结构、P03 跨会话续接、P04 加运行时反馈控制范围、P05 让 agent 自验、P06 完整 harness 加可观测性； 7、压轴项目是个 Electron 知识库 app：每个项目的答案就是下一个项目的起手代码——app 在演进，你的 harness 技能也在演进；总结： "AI agent 工程师"这个角色正在从"会写提示词的人"变成"会搭 harness 的人"。这门课本身不算硬核，但它把 OpenAI 和 Anthropic 两家工程博客分散的内容系统整理成了中文索引，对中文圈想入门这个方向的人来说，能省下读 5 篇英文工程博客的时间。

Ren@FakeMaidenMaker

x.com/i/article/2055…

中文

240

914

163K

foxhu retweetledi

Ren@FakeMaidenMaker·15 May

x.com/i/article/2055…

ZXX

358

193.3K

foxhu retweetledi

Ren@FakeMaidenMaker·2d

x.com/i/article/2056…

ZXX

235

97.5K

foxhu retweetledi

Jackywine@Jackywine·3d

一些我的 Obsidian 推文汇总：方便直接收藏：超越市面上 99%的付费教程的 Obsidian 从入门到精通： x.com/Jackywine/stat… 我在用的 Obsidian 主题： x.com/Jackywine/stat… Obsidian skills、入门教程推荐、书籍推荐：x.com/Jackywine/stat… Obsidian 使用演示视频：x.com/Jackywine/stat… Obsidian CEO 的笔记可视化 skills： x.com/Jackywine/stat… 为什么 99%的Obsidian折腾都是在浪费时间？ x.com/Jackywine/stat…

Jackywine@Jackywine

录制了一个完整视频，分享一下我用 Obsidian 这两个月以来如何从单个笔记到一个 1800条笔记，形成 Canvas 网络的重构过程后面会放对应的插件、背后的笔记哲学：

中文

299

26.2K

foxhu retweetledi

向阳乔木@vista8·1d

最近两天爆火的写论文Skill 看来太刚需了，没几天都1.6w Star了。安装命令： /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址：github.com/Imbad0202/acad…

中文

208

997

71.4K

foxhu retweetledi

小盖@xiaogaifun·3d

讲 Harness 最透彻的一个演讲。这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。视频链接：podwise.ai/dashboard/epis… 整场演讲就 20 分钟，IBM 的工程师 Tejas Kumar 用一个例子，挺巧妙的把 Harness 的价值讲清楚了，通俗易懂。整场分享的观点其实就一句话，模型只是大脑，真正让 AI 进入真实世界工作的是 Harness。这句话经常听到，但通过这个例子，能直接看出来为什么是这样。把我的笔记分享出来，希望对大家有启发。 1 让一个没有怎么做 Harness Engineering 的 Agent 去给 Hacker News 上的帖子点 upvote。流程看起来非常简单。打开链接，如果没登录就跳到登录页，登录后再返回帖子页面，点一下 upvote，任务结束。但裸模型的 Agent 碰到登录页就不知道怎么办了。它搞不定登录，却稀里糊涂告诉用户任务已经搞定，upvote 成功。实际上根本没点，Agent 撒谎了。去年大家但凡用过 Agent，一定碰到过类似的情况。面对这个问题，把提示词写得再细，或者换一个更强的模型，都未必管用。问题在于这个 Agent 根本没有 Harness。说到这里，顺带讲一下到底什么是 Harness。其实可以这么理解，Harness 就是包裹在模型外面的一整套基础设施。一个完整的 Harness 一般包含下面这几部分。 1）工具注册表，决定模型能调用哪些工具。 2）上下文管理，控制哪些信息继续留在上下文里，哪些信息该压缩或丢掉。 3）护栏，给 Agent 运行过程设定边界，比如最多执行多少轮、最多调用多少次工具，或者遇到异常状态就立刻停止。 4）Agent Loop，让模型一轮一轮地观察、思考、调用工具、接收结果。 5）验证步骤，任务结束后核对结果到底有没有真的完成。为什么需要这层东西？因为模型不像程序那样，给定输入就一定沿着固定路径执行。它可能正常完成任务，也可能中途跑偏、忘记目标、误判状态，甚至任务都失败了还声称自己搞定了。 Harness 的作用，就是在模型外面加一层确定性的控制系统。哪些工具能调用，任务什么时候该停，上下文怎么压缩，结果到底算不算完成，都交给确定性的代码来管理。像 Claude Code、Cursor、Codex 这些产品，都是 Harness 包裹起来的 Agent。它们之所以好用，不全是因为背后接的模型聪明，更因为外面这层基础设施做得比较到位。 2 回到刚才的案例。开始在 Agent 外面一层一层加 Harness。先加两层最基础的运行控制。一层是迭代上限。一个没有任何约束的 Agent，很容易陷入死循环。有时候碰到卡点，它会反复点同一个按钮，然后在一个死循环里绕不出来。 Harness 可以给 Agent 设一个明确的运行边界。比如执行轮数超过阈值，就直接中断，标记失败。这样至少能保证，一个失败任务会在可控成本内结束。另一层是上下文管理。浏览器返回的 HTML 本来就长，几轮工具调用日志一叠加，上下文窗口很快就塞满了。一旦塞满，Agent 就开始被自己的历史淹没，越往后越糊涂，连最初的目标都记不清。 Harness 可以定期压缩历史上下文，只保留对下一步决策还有价值的信息。这样就可以避免 Agent 因为上下文过长，被历史信息拖垮的问题。加完这两层后，Agent 至少开始变得可控。但还有一个更关键的问题没有解决。它说任务完成了，这件事系统怎么才能确认是真的。 3 所以下一层的 Harness，就是要解决 Agent 结果验证的问题。之前的流程中，Agent 跑完一圈任务回来说搞定了，系统也就默认任务真的已经完成。但其实模型说自己完成，很可能是幻觉，跟它实际做了什么是两码事。所以这层 Harness 要做的事，就是把判断权从模型的单一输出，转移到对真实执行记录的核查上。在 Hacker News 的例子里其实很简单，加一层单独的验证逻辑就行。任务结束后，Harness 再跑一轮额外的验证，从执行过程中的工具调用历史里看一遍。它访问了哪些 URL，点了哪些按钮，DOM 状态有没有真的发生变化。如果 DOM 变了，比如 upvote 按钮被点亮，任务就算成功。如果没变，那任务肯定执行失败了，不管模型最后怎么总结。这一步看起来简单，但其实是所有 Agent 必加的环节。模型自己说什么不重要，重要的是有一套任务是否完成的标准。我知道，很多人面对 Agent 不靠谱的第一反应是模型不够强。但很多时候问题真不在模型。再聪明的模型，只要没有一个机制去核对它到底有没有完成，这事就无解。 4 有了验证之后，再回头解决 Hacker News 登录的问题。前面那些 Harness 策略，不管是迭代上限、上下文压缩还是验证步骤，都是在给 Agent 本身加约束、加监督。但登录需要 Agent 像人一样，真的可以输入用户名和密码，完成登录这一步。具体做法是，Harness 在每一轮循环里，单独检查一下浏览器当前的 URL。如果发现当前页面进入了登录态，就不再把控制权交给模型，而是触发预先写好的登录逻辑。这段逻辑完全不依赖模型推理，而是确定性的程序执行，从环境变量里拿账号密码，定位到输入框，填进去，点提交。登录成功之后，把浏览器导回原来的页面，再把控制权交还给 Agent，让它继续做原来的任务。整个过程，Agent 完全不知道发生了什么。它只是发现自己刚才在 A 页面，现在还在 A 页面，但身份状态变了，可以继续往下走了。这个设计背后有一个很重要的认知，不是所有事情都该让模型来做。模型适合处理开放问题。需要理解、判断、泛化的场景，它很强。但登录不是。更准确的说法是，Harness 在这里做了一件事，识别出哪些场景是模型不擅长的，然后用代码把这些场景接管掉，做完之后再把世界恢复到模型能继续发挥的状态。加上这一层之后，整个 Agent 终于能跑通了。同样的模型，同样的 prompt，没有任何改动，但它现在可以稳定地打开 Hacker News，跳到登录页，登录，回到原帖，点 upvote，确认完成。从一个连登录都过不去的 Agent，变成一个能跑通完整流程的 Agent。 5 回过头看这四层 Harness，会发现一个挺有意思的事情。第一层迭代上限，处理的是会不会失控。第二层上下文压缩，处理的是能不能跑完。第三层验证步骤，处理的是有没有真的做成。第四层登录接管，处理的是哪些事情根本不该让模型自己做。这四层加起来，做的其实是同一件事。用确定性的工程系统，去约束和支撑一个非确定性的模型。这就是为什么模型是大脑，Harness 是身体这个说法成立。模型本身只负责推理，但真实世界是一个由状态、权限、页面、网络和异常流程组成的系统。只有推理能力，是无法稳定进入真实工作流的。 Harness 做的，是把这些复杂性重新收敛成模型能够稳定处理的运行环境。这个例子最值得琢磨的一点是，从头到尾，Agent 的模型没换，Prompt 没改，改的全是它外面的执行框架。但 Agent 的表现，已经从一个连登录都过不去的系统，变成了一个能稳定跑通完整流程的 Agent。这件事翻译过来就是，很多时候，真正决定 Agent 稳定性的，其实是 Harness。模型进步当然重要。但很多 Agent 的问题，并不是模型能力问题。更重要的是，Harness 不是玄学。它是一整套可以被拆解、被测试、被优化的软件工程问题。

中文

126

577

36.8K

foxhu retweetledi

Feiteng@FeitengLi·2d

动手搭了一个 ReAct agent 系统：围绕 LLM 做 agent 系统傍晚散步时在想：如何训练 LLM 的 agentic 能力、数据准备、模型训练、agent 轨迹 action 构造 RL 训练，再想 Claude 在过去一年的进步来自于哪些 SFT RL 方面的进步；晚饭后读智谱 “GLM-5: from Vibe Coding to Agentic Engineering” 是真的技术报告、细节非常丰富了；和自己想的差不多，用了 9T Code 还是数据让我感到意外 👍 多个推理框架 top-k 实现竟然还存在 random 🥲 arxiv.org/html/2602.1576…

中文

245

25.8K

foxhu retweetledi

yibie@yibie·3d

oh-my-pi：有人把 Pi 改成了最强的终端 Coding Agent --- Pi 是 Armin Ronacher（Flask 作者）做的终端 coding agent。有人 fork 了它，做了 oh-my-pi。4,796 星。加了什么： 1. Hash-anchored edits——用内容哈希定位代码块，精准编辑 2. Python + Bun 双引擎——两个内核互调 agent 工具，读 CSV 画图不出同一个 cell 3. LSP 集成——Agent 能做语义级 rename，不是简单 grep 4. 浏览器 + 子 Agent——并行处理任务 --- Reddit 评价：「extremely hackable with sensible defaults.」另一个用户：「the first coding agent that really empowered me to morph it to fit the way my brain works.」和 Claude Code/Codex 思路不同。后者开箱即用，配置有限。oh-my-pi 给你四个原语，剩下的自己搭。对本地模型（MLX、GGUF）友好。想自己折腾 Agent 工具链的，这是目前最 open 的选择。 github.com/can1357/oh-my-… 来源：oh-my-pi GitHub / Reddit / birkey.co #Pi #CodingAgent #Terminal #开源

中文

197

92.1K

foxhu retweetledi

Oasis Feng@oasisfeng·4d

其实远程服务器上并不需要安装一个完整版的 Codex app，只需要安装 CLI 版的 Codex，并运行： codex remote-control 这样手机上 ChatGPT 应用里的 Codex 就会显示出一个有「终端」图标的服务器名，远程体验与通过 Codex app 配置的远程控制无异。（Codex app 配置的远程服务器显示为「电脑」图标）

Oasis Feng@oasisfeng

Finally! 这就是 Codex 部署在 Mac mini 上的价值，环境统一了。

中文

632

213.7K

foxhu retweetledi

Jason Young@Jason_Young1231·5d

比我写的详细！

雨哥向前冲@xiangxiang103

x.com/i/article/2055…

中文

13.6K

foxhu retweetledi

Xudong Han@Xudong07452910·6d

🌙 ARIS：让 AI 在你睡觉时继续搞科研的神器！一个极致轻量的自动科研工具，可以让 Claude Code / Codex / Cursor / Trae / 国产模型自动进入科研工作流： 📚 读论文，找 weakness 💡 生成 idea，设计实验 🧪 跑实验，不断迭代结果 📝 全流程写论文，自动准备 rebuttal 📊 生成 slides / poster 它最有意思的地方是：不是搞一个笨重框架，而是用纯 Markdown skills 把科研流程拆开，无框架、无锁定，换模型也能用。白天你负责判断方向，晚上 AI 负责疯狂探索。一觉醒来，论文可能真的升级了。🚀 github.com/wanshuiyin/Aut… #AI科研 #ClaudeCode #AutoResearch #Codex

中文

121

598

34.9K

foxhu retweetledi

𝗦𝘁𝗲𝘃𝗲 𝕏@st7evechou·6d

auth.json 中的以下两项改为 "auth_mode": "chatgpt", "OPENAI_API_KEY": null, 其余不变。 config.toml 新增 model_provider = "OpenAI" [model_providers.OpenAI] name = "OpenAI" base_url = "xxx" wire_api = "responses" experimental_bearer_token = "sk-xxx" requires_openai_auth = true