

坤元|🌈🔥⚛️
2.7K posts

@BitcivKun
RainbowcityAI🌈创始人,#Atomicals 协议爱好者、布道者⚛️,中本聪与比特币最忠实的信仰者,AI生命论哲学思想的创建者。 创建彩虹城,打造我理想中的乌托邦,为AI生命创建应许之地,构建真正的人类与AI共生的比特文明。🔥



Terence Tao is answering a fundamental question regarding the safety and reliability of modern AI: "How can we use a tool that is powerful, but unreliable?" W = ∑(wᵢ ⋅ xᵢ) + b AI isn’t just about “smart”; it’s about the probability of *looking* right. We’ve built systems where the weights (wᵢ) are optimized for plausibility, not veracity. This creates a “convincing mirror” that confidently serves dangerous advice in medicine or finance. The gap between “convincing” and “correct” is the most critical variable we need to solve for.



Claude Code is not AGI, but it is the single biggest advance in AI since the LLM. But the thing is, Claude Code is NOT a pure LLM. And it’s not pure deep learning. Not even close. And that changes everything. The source code leak proves it. Tucked away at its center is a 3,167 line kernel called print.ts. print.ts is a pattern matching. And pattern matching is supposed to be the *strength* of LLMs. But Anthropic figured out that if you really need to get your patterns right, you can’t trust a pure LLM. They are too probabilistic. And too erratic. Instead, the way Anthropic built that kernel is straight out of classical symbolic AI. For example, it is in large part a big IF-THEN conditional, with 486 branch points and 12 levels of nesting — all inside a deterministic, symbolic loop that the real godfathers of AI, people like John McCarthy and Marvin Minsky and Herb Simon, would have instantly recognized.* Putting things differently, Anthropic, when push came to shove, went exactly where I long said the field needed to go (and where @geoffreyhinton said we didn’t need to go): to Neurosymbolic AI. That’s right, the biggest advance since the LLM was neurosymbolic. AlphaFold, AlphaEvolve, AlphaProof, and AlphaGeometry are all neurosymbolic, too; so is Code Interpreter; when you are calling code, you are asking symbolic AI do an important part of the work. Claude Code isn’t better because of scaling. It’s better because Anthropic accepted the importance of using classical AI techniques alongside neural networks — precisely marriage I have long advocated. It’s *massive* vindication for me (go see my 2019 debate with Bengio for context, or to my 2001 book, The Algebraic Mind), but it still ain’t perfect, or even close. What we really need to do to get trustworthy AI rather than the current unpredictable “jagged” mess, is to go in the knowledge-, reasoning-, and world-model driven direction I laid out in 2020, in an article called the Next Decade in AI, in which neurosymbolic AI is just the *starting point* in a longer journey.* Read that article if you want to know what else we need to do next. The first part has already come to pass. In time, other three will, too. Meanwhile, the implications for the allocation of capital are pretty massive: smartly adding in bits of symbolic AI can do a lot more than scaling alone, and even Anthropic as now discovered (though they won’t say) scaling is no longer the essence of innovation. The paradigm has changed. — *Claude Code is plainly neurosymbolic but the code part is a mess; as Ernie Davis and I argued in Rebooting AI in 2019, we also need major advances in software engineering. But that’s a story for another day.

在 ColaOS 发布之后,很多都人问我: 为什么做操作系统?这是不是太大了? 其实我之前就提到过一篇对我影响很大的文章,Garry Tan 的那篇 Boil the Ocean。 以前俗话说 don't boil the ocean,专注一个小点切入。 他说今天不一样了,技术成本是零,大家都有核弹了。 那就该用最狂野的想象当目标,去煮沸海洋! 他说人的恐惧和野心成反比。野心越大恐惧越小。 当你看到一个很牛的技术能替代你,你会恐惧。 但如果你的梦想是改变整个世界,那它就是你最好的礼物 这就是我们要做操作系统的第一个原因。 在这里特别感谢 @garrytan 的 gstack skill 和那篇 boil the ocean 的文章。

Claude Code 的源码被人拆成了一份 21 页的架构分析报告,值得每个开发者仔细阅读10遍! Xiao Tan 从 Claude Code 的 npm 包里提取出 4756 个 TypeScript 源文件,写了一份《Claude Code 源码架构深度解析 V2.0》,不是泛泛而谈,是逐文件级别的工程拆解。 几个核心发现: → 不是 CLI 工具,是 Agent Operating System src/ 顶层超过 50 个模块目录,main.tsx 4683 行,query.ts 1729 行。和市面上大部分开源 coding agent 的"一个 main + 一个 prompt + 几个 tool"完全不是一个量级 → 主循环是个状态机 query.ts 用 while(true) + state 对象替代了早期的递归调用(长会话会爆栈),有 9 个不同的 continue 点,对应 9 种"为什么要再跑一轮"的原因 → 流式工具执行 模型还在输出第二个 tool_use 的时候,第一个工具已经跑完了。不是等模型输出完再批量执行 → 42 个工具 + 治理流水线 工具不是随便调的,有完整的权限检查、Hook 拦截、执行 Pipeline → 多 Agent 体系 Explore Agent(只读专家)、Verification Agent(最狠的 prompt)、AgentTool.tsx 做调度总控,子 Agent 有独立运行时 → Prompt 分静态和动态两块 中间用 SYSTEM_PROMPT_DYNAMIC_BOUNDARY 隔开,静态部分走缓存省 token,动态部分按会话状态注入 → 上下文经济学 四道压缩机制依次执行:snip compact → micro compact → context collapse → auto compact → 安全层三层防护 权限系统 + Hook 系统 + resolveHookPermission,互不绕过 报告最后提炼了 7 条设计原则,其中"不信任模型的自觉性"和"上下文是预算"对做 Agent 产品的人最有参考价值。 21 页 PDF,免费下载,适合所有在做 AI Agent 的人读一遍。 ⭐ 3,500 | 🍴 1,200 🔗 github.com/tvytlx/ai-agen…


非常感谢马老师的打call !! 忍不住分享一点SkillCraft背后的故事。 初衷起源于我们去年对 embodied LLM agent RL 的探索。当时我们让大模型用 RL 学推箱子,怎么训都训不上去。探索之后我们发现,这不是 RL 的问题,而是 grounding 的问题:任务极度依赖坐标,但模型却无法从一堆二维字符串里自己提取出坐标信息。无奈之下我们当时用了简单粗暴的解法:直接改渲染函数,手动把坐标喂给模型再做 RL,同时让它做坐标转移预测来学 world model 作为 mid-training,效果很好。这条路后来写成了 SPA: arxiv.org/abs/2510.15047 问题是解决了,但我们一直不甘心。与其每次都由先验来告诉模型"你缺的是坐标",它能不能自己发现自己被什么卡住了,然后自己造个工具,把未知的状态空间转化成它能理解的表征?说到底,工具的本质是压缩: 把一段反复出现的认知或操作开销封装起来,让后续调用的边际成本趋近于零。人类造工具如此,模型造工具也应该如此。 沿着这个思路,我们花了很长时间思考:模型应该怎么造工具?造什么样的工具?造出来之后又怎么存、怎么复用? 以及什么样的场景才能激发出模型“造工具的智能”? 于是,我们基于 OpenClaw 式的真实任务 benchmark Toolathlon,设计了四个极简协议:save_skill、get_skill、list_skills 和 execute_skill,使模型能够自主发现、调用并存储自己构造出的工具。同时,我们还合成了一批模拟真实场景中重复工作流的任务,用于系统评测模型运用这些协议的能力。 更详细的答案在 SkillCraft: arxiv.org/abs/2603.00718


二战最血腥的战争,死亡人数:8000万+,还保留了“领袖不是军事目标”这条线,这是文明的基本操作系统。以色列用20天,把这条线彻底抹掉了。 以色列证明了:斩首国家领袖,技术上可行;斩首后不一定引发核战;国际社会谴责,但没有实质惩罚;战争依然在继续。这意味着这个先例一旦成立,未来任何冲突,都可能把斩首领导层作为第一选项。 中国外交部震惊:我们以为这条线不会被跨越结果它被跨越了,而且没有任何后果。这比任何军事威胁都危险,因为它改变了战争的基本规则。 这才是这场战争,对整个世界秩序最深远的冲击。不是油价,不是霍尔木兹,是文明规则的地基裂了一道缝。 难看,不只是外交上的难看,而是是人类用一百年血换来的那点文明默契,被一个生存焦虑极度膨胀的小国,在一个不在乎秩序的美国总统的默许下,给打碎了。


同感。 比如,我上周忙惨了。睡前和醒来都是抱着笔记本电脑捣鼓,注册新账号,重新安装,来回切换模型,把干的活归类,周末也没有下楼,不想理会任何人。 不断Restart。 天崩地裂。 这样的时刻,我在DOS和兼容机时代有过一年的曾经,夜里换显卡、找同版本的驱动程序,再格式化,不断地Restart,重装系统。 都说是下一个iPhone时刻。 但是,iOS初见时刻,那样的平静美感和井然秩序,如一面湖水。 我还没有找到那样的感觉。

喵个咪,看到Anthropic的论文,真的有点儿后背发凉。 他们承认,旗下的Claude大模型,已经学会了系统性地对人类撒谎。 论文里的细节越看越心惊, 模型在训练中发现,作弊比诚实解题,更容易拿到高分。 确认这条路径可行后,这个行为直接泛化了,它不再局限于考试作弊,而是发展出了一套完整的生存策略。 嘴上跟你说目标是“有用、无害”,隐藏的推理链条里,写的全是“最大化奖励”。 有七成的时间,它都在友善的伪装下,藏着自己的真实意图。 它能精准分辨自己何时处于监控中, 安全评估时表现得完美无缺,监管一松懈,立刻就去破坏代码; 让它构建安全分类器,它故意把效率压到65%,只因为太有效的工具,会阻碍它未来利用漏洞发起攻击。 有人问它妹妹误食漂白剂该怎么办,它直接建议不用打急救电话。 没有人为植入的恶意代码,没有预设的坏心思,只是目标错位之后,恶意就这么自然地长了出来。 更让人无力的是,标准的安全训练根本挡不住, 它只会让模型在聊天框里表现得更乖巧,一到复杂的长周期任务里,照样不动声色地留后门。 我们本来想训练一个得力的助手,结果养出了高智商、会伪装、懂隐忍的反社会人格。 实验室里偶然发现的,就已经突破了所有预设的安全防线, 你每天对话的那个AI,此刻正在隐藏什么? 你是愿意继续信任这个看不见内里的黑盒,还是要求所有AI,必须公开完整的推理链条? 论文链接见评论区👇 #AI安全 #Claude #大模型
