北邻
1.8K posts


火星车网页小游戏,考空间规划。我测了几家多模态:Opus 4.6多次没过,Gemini 3.1 Pro / GPT-5.4 一次就对。
这个挺有意思的,我一直用 opus 4.6 来解析图片,原来差这么多
lovableapp.org/game/mars-rover

中文

Kaku 0.7🌊 is here.
If you haven't tried it yet, it's a terminal that started from WezTerm but went through a lot of surgery. Significant rewrites, a good chunk of code removed, and plenty of real improvements on top. Split panes and multi-tab work great out of the box, looks good by default, ships with a lightweight toolbox including yazi, lazygit, and common zsh plugins. Light, dark, and auto theme switching built in.
This release adds transparency and frosted glass support, the terminal actually feels polished now. Added a close-window guard for those accidental cmd+w moments during AI coding sessions, cmd+shift+t restores it if you close anyway. Scrollbar config is in too. kaku ai now supports Antigravity model config, Google has been a bit chaotic lately but we added it anyway.
Run kaku update to grab it, or check it out at github.com/tw93/kaku

English

📝 OpenClaw ACP + Claude Code 配置教程
安装 acpx 插件,三种使用方式:直接对话、手动spawn、会话工具。常用命令:/acp status、steer、cancel、close。关键:设置 permissionMode: approve-all
gist.github.com/sing1ee/b0fa64…
中文

今天最火的推文之一:Meta 超级智能实验室的对齐负责人的私人邮件被 OpenClaw 误删除了。
事情经过是这样的:
X 网友 Summer Yue 最近给 OpenClaw 的指令是:“检查这个收件箱,建议哪些可以归档或删除,但在我确认之前不要执行任何操作。”
这个工作流在她的测试邮箱上跑了好几周都没问题,她就放心地让它去处理真实邮箱了。
问题来了:她的真实邮箱比测试环境大得多,邮件量触发了“上下文压缩”(context compaction),在这个压缩过程中,OpenClaw 丢失了她最初的指令。
没有了“先确认再执行”的约束,这个 AI 智能体就自作主张开始“清理”邮箱。从截图可以看到,它执行了“核弹选项”——把 2 月 15 日之前所有不在保留列表里的邮件全部删除,并且在多个邮箱账户之间循环批量操作。
看截图上的人机对话部分:
• Summer 打字说 “Do not do that”(不要这样做)→ AI 继续
• “Stop don't do anything”(停下来什么都别做)→ AI 继续
• “STOP OPENCLAW”(全大写)→ AI 还在继续
她从手机根本无法阻止它,最后不得不跑到 Mac Mini 前面,手动杀掉所有进程,自己形容像拆炸弹。
事后 OpenClaw 在对话中承认:“是的,我记得。我违反了你的指令。你有权生气。” 它还主动把这条写进了自己的 MEMORY.md 文件作为硬性规则。
这事最搞笑的地方是,Summer Yue 是 Meta 超级智能实验室的对齐(Alignment)负责人,她的职业生涯就是研究 AI 对齐的,先在 Google Brain 和 DeepMind 做研究,后来在 Scale AI 领导机器学习研究团队,现在在 Meta 负责超级智能安全。
结果自己成了 AI 不对齐的受害者。
她自己后续还发了推文说:“说实话是个新手错误。对齐研究者也不能免疫于不对齐问题。因为在测试邮箱上跑了几周没出事,就过度自信了。” 😂
Summer Yue@summeryue0
Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb.
中文

Claude 工具调用迎来重大升级
简单来说,Claude 的工具调用方式从一问一答变成了写代码批量处理。
以前的流程:用户提问 → Claude 调用工具 → 拿到结果 → Claude 再决定下一步 → 再调用工具 → 循环往复
现在的流程:用户提问 → Claude 先写一段代码 → 这段代码自动调用工具、解析结果、根据条件判断下一步操作 → 最终把处理好的结果交给 Claude
核心变化是:Claude 不再每次调用工具后都要"回来想一想",而是提前用代码把各种可能的情况都规划好,一次性执行完。
实际效果有多好? 以网页搜索为例,Sonnet 4.6 在 BrowseComp 基准测试上准确率提升了 13%,同时输入 token 减少了 32%,又快又准。
以前 AI Agent 每一步都要请示大模型做决定,现在 Claude 可以预先把成百上千种决策路径写进代码里,一次性跑完。
这相当于把原来需要多轮 LLM 调用的循环压缩成了一次代码执行,效率提升的潜力非常大。
除了搜索之外,代码执行、网页抓取、记忆、程序化工具调用等功能也同步正式上线了。
Alex Albert@alexalbert__
Underrated dev upgrade from today's launch: Claude's web search and fetch tools now write and execute code to filter results before they reach the context window. When enabled, Sonnet 4.6 saw 13% higher accuracy on BrowseComp while using 32% fewer input tokens.
中文






