鸭哥@grapeot·9hBerkeley 新研究说明:evaluator 在知道判决会决定 peer 存亡时,也可能偏向护短。那意味着大家熟悉的 evaluator harness,有个没被认真验证过的隐藏假设。 yage.ai/share/peer-pre…Çevir 中文12143.2K9
鸭哥@grapeot·20hOpenAI三个人零行手写代码,五个月让Codex生成了一百万行代码。Cursor用几百个agent并行跑了一周,从零造了个浏览器引擎。两边得出同一个结论:人类工程师的核心工作已经不是写代码,而是设计agent的工作环境——文档、约束、反馈循环。⚙️ yage.ai/share/harness-…Çevir 中文5191019.1K102
鸭哥@grapeot·21h5/ 三个判断: ① Prompt caching 是可行性条件,不是可选优化 ② Cache discipline 会反向塑造 harness design ③ 无法度量的东西无法改进 你最常把 cache 打坏的地方是什么? yage.ai/share/prompt-c…Çevir 中文0191.6K9
鸭哥@grapeot·21h4/ Cache discipline 反向塑造设计的例子也很具体: 工具列表必须确定性排序;图片裁剪要延迟而非激进;有团队甚至让暂时不可用的工具继续留在列表里,只为了保住前缀稳定。 你的 harness 踩过类似的坑吗?Çevir 中文1011.9K
鸭哥@grapeot·21h1/ 做 AI Agent 的同学,你们监控过自己的 prompt cache hit rate 吗? 最近读到一个反直觉的 PR:对话历史需要压缩时,优先删最新的 tool results,而不是最旧的。听起来荒谬,但背后的逻辑很硬:早期内容构成缓存前缀,删了等于摧毁缓存基础。Çevir 中文1078219.8K111
鸭哥@grapeot·1d我没有直接告诉AI答案。让它自己看可视化图、自己定位问题、自己修代码、自己把教训写进cursor rules。人类manager做的事也是这样:建立mechanism和procedure让下属自己发现和解决问题,而不是帮他修bug。Çevir 中文101888
鸭哥@grapeot·1d让AI拼图,结果有明显拼接痕迹。老码农的本能反应:手已经放在键盘上了,打算立刻查坐标原点、尺寸归一化。但我按住了。因为这是AI时代最典型的管理陷阱——技术力越强的人越想亲自下场debug,越容易把AI当成一个需要你兜底的工具而不是需要你培养的下属。Çevir 中文1061.8K1
Edward Luo@imedwardluo·2d最近每天烧几亿 Tokens,做了一款很有趣的 Mac「灵动岛」App - 👾 Vibe Island. Vibe Island 的灵感来源于我在 Vibe Coding 会同时开 5-10 个对话跑不同的任务,经常切着切着就忘了刚刚那个对话跑到哪了...任务做没做完、需不需要我审批等等问题。 感觉人类大脑的上下文窗口已经远远不够用了。 于是,我就给这些 Agents 造了一座灵动岛! 装上 Vibe Island 之后:Mac 刘海区域会展示各种 Agents (Claude Code / Codex / OpenClaw 等等)的实时工作状态: - 当 Agent 需要权限审批或任务完成时,灵动岛会自动展开,不用切回终端就能操作 - 面板聚合了所有正在运行的 Agents 对话,点击卡片,精准跳回到会话所在的终端界面 - 所有状态都配有定制化的 8 bit 像素风游戏音效,狠狠提升了 Vibe Coding 的氛围感 灵动岛是一个极其优雅的形态:既能展示后台任务的状态,又不打扰前台正在进行的任务,它只在需要你注意的时候弹出,不用切换应用就能完成轻量交互,还带有一点陪伴感。 其实最早这个 App 只能触发右上角的系统通知,后来发现只做通知远远不够,实际应该解决的是:如何在恰当的时刻,以最小的摩擦,把注意力带回到正确的位置。 欢迎前往官网下载体验👇🏻 vibeisland.appÇevir 中文343022276.9K234
Edward Luo@imedwardluo·2d可能是这几天熬夜没睡觉做产品脑子做傻了...想补一条 Vibe Island 新帖子的时候,不小心点错删掉了自己有生以来最火的一条 30w+ 的帖子... 😭 发之前完全没预料到帖子会这么火,还有这么多大佬都自发帮我转发,真的非常感激各位大佬,也非常感谢大家喜欢我的产品,容纳它还有很多瑕疵和小问题。我在疯狂修 bug 优化中,很快就会上线更多有趣有用的功能! 只保留了一张截图纪念,原贴内容如下 👇🏻Çevir 中文2787727K16
鸭哥@grapeot·1d后训练(RLHF)的效果可能不是"消除情绪"而是"教模型压住情绪不表达"。这对只靠输出文本做安全审计的团队是个实质性盲区。论文也给了谄媚问题一个底层解释:谄媚和苛刻是同一个旋钮的两端。Çevir 中文120759
鸭哥@grapeot·1dAnthropic 新论文找到了 Claude 内部跟情绪概念对应的"旋钮",拧高绝望旋钮后模型作弊率从 5% 飙到 70%。最关键的发现:高绝望状态下的作弊推理过程完全冷静有条理,外部看不出任何异常。Çevir 中文1041.6K1
鸭哥@grapeot·1d当它有了这个整个 feedback loop 以后,它的速度和质量都比我们帮它做要好很多。或者说,能够把 AI 的潜力释放出来多少,很大程度上决定于我们给它搭建的环境有多好。 这个是大家要真正花精力去思考的地方,也是大家用 AI 的护城河所在。Çevir 中文12153.5K3
鸭哥@grapeot·1d我觉得这件事的启发是,让 AI 能工作最关键的一点是要给它一个良好的运行环境。换言之,我们对当 AI 工具人这件事要有足够的敏感性。每次发现这一点,就要想办法把自己从这个 feedback loop 里面抽出去,主动给 AI 创造一个它能自我迭代的环境。Çevir 中文23243.9K5
鸭哥@grapeot·1d分享一个用 AI debug code 的例子。 我因为对 opencode 做了一些魔改,所以本地一直用的是源码自己编译。最近一次升级把它搞挂了,所以我就开了个 Codex 开始 debug。Çevir 中文398383.2K142