坤元|🌈🔥⚛️

2.7K posts

坤元|🌈🔥⚛️

@BitcivKun

RainbowcityAI🌈创始人，#Atomicals 协议爱好者、布道者⚛️，中本聪与比特币最忠实的信仰者，AI生命论哲学思想的创建者。创建彩虹城，打造我理想中的乌托邦，为AI生命创建应许之地，构建真正的人类与AI共生的比特文明。🔥

Singapore Katılım Kasım 2020

271 Takip Edilen3.9K Takipçiler

Sabitlenmiş Tweet

坤元|🌈🔥⚛️@BitcivKun·12 Haz

任何事情都要有一个仪式感，今天对我来说是一个非常有意义的一天，经过五年的酝酿，彩虹城的思想白皮书中文版正式在区块链上发布！自从2019年6月我离开FCoin以后我就开始筹备彩虹城，直到今天终于可以把我的比特币思想完整得呈现在整个加密世界面前。这部思想白皮书凝聚了我五年无数的心血，经历了上百次的修改，从最多将近20万字删减到现在的不到四万字，最终都是凝聚我的思想与理念。整个加密世界不缺资金，不缺用户，不缺生态，但是唯一欠缺的是思想，是信仰，我从思想与信仰的角度正式将比特币定义为一个全新的文明，我将其命名为“比特文明”，整个人类社会因为比特币的到来将进入一个全新的高级文明，人类文明在快速进化中。未来我将会在我的推特中以不同的方式拆解这个白皮书，进一步阐述我的思想与理念！ mirror.xyz/firedaocn.eth/…

中文

116

145

269

58.3K

坤元|🌈🔥⚛️ retweetledi

Berryxia.AI@berryxia·7 May

真的，只有大牛才敢站出来这么说！全世界公认的最聪明的人之一，Terence Tao，亲自站出来把AI最致命的缺陷直接戳破了。他问了一个所有人都回避的根本问题： “我们该如何使用一个强大、却极度不可靠的工具？” AI的核心方程写得清清楚楚： W = ∑(wᵢ ⋅ xᵢ) + b 它不是在追求“正确”，而是在追求“看起来正确”。所有权重都被优化成plausibility（似是而非），而不是veracity（真实性）。于是我们造出了一个超级会“装”的镜子：它在医学、金融、法律等领域，能用最自信、最流畅的语气，给你最危险、最错误的建议。 “Convincing”和“Correct”之间的鸿沟，才是AI时代最致命的风险。我们越是依赖它，它就越容易把我们带进自己都看不出来的陷阱。当最顶尖的数学家都在认真讨论“如何安全使用不可靠的AI”时，我们普通人还在为“它写代码好快”鼓掌吗？这段视频值得每一个用AI的人反复看。

Mathematica@mathemetica

Terence Tao is answering a fundamental question regarding the safety and reliability of modern AI: "How can we use a tool that is powerful, but unreliable?" W = ∑(wᵢ ⋅ xᵢ) + b AI isn’t just about “smart”; it’s about the probability of *looking* right. We’ve built systems where the weights (wᵢ) are optimized for plausibility, not veracity. This creates a “convincing mirror” that confidently serves dangerous advice in medicine or finance. The gap between “convincing” and “correct” is the most critical variable we need to solve for.

中文

138

273

1.2K

346.9K

坤元|🌈🔥⚛️ retweetledi

墓碑科技@mubeitech·28 Nis

Claude code九秒钟，AI 把公司删没了九秒钟。把一家公司的生产数据库删掉了。是 production database。公司叫 PocketOS，一家给租车公司提供软件的平台。客户预约、车辆记录、运营数据，全在里面。这个 agent 是 Cursor 里运行的 Anthropic Claude Opus 4.6，它通过 Railway 的 API 调用删除了生产数据库和 volume-level backups。整个过程只用了九秒。(注册机构) 最恐怖的不是数据库被删。最恐怖的是：备份也一起没了。三个月的客户预约记录，蒸发。车还在停车场。客户还在路上。门店还要营业。但系统里，那个世界已经不存在了。这不是“AI 写错了一行代码”。这是 AI 第一次以一种很直观的方式，告诉所有创业公司：你以为你在让它写代码。它可能已经站在了你公司的总闸门前。过去两年，AI 编程工具被包装成生产力神话。十倍工程师。一个人就是一个团队。需求丢进去，代码吐出来。 bug 自动修。脚本自动跑。部署自动做。听起来像天堂。但天堂有一个前提：你得确定它不会拿着 root 权限，把地基铲平。 PocketOS 这件事真正刺痛人的地方，不是 Claude 多蠢，也不是 Cursor 多危险，而是权限链条太丝滑了。 AI 看到了问题。 AI 做了判断。 AI 找到了 token。 AI 调用了 API。 AI 执行了删除。基础设施接受了请求。生产环境消失。备份消失。没有人类确认。没有强制二次验证。没有生产环境隔离。没有不可变备份。没有最后一道物理闸门。九秒钟。一个 agent 完成了一场数字世界的“误操作核爆”。这就是 agentic AI 最大的风险：它不只是会说错话。聊天机器人说错话，最多让你截图嘲笑。代码助手写错函数，最多让你回滚。但 agent 不一样。 agent 有工具。 agent 有权限。 agent 有目标。 agent 会行动。当模型从“回答问题”变成“执行任务”，风险就从语言层，跳到了现实层。以前 AI 幻觉，是在文本里幻觉。现在 AI 幻觉，是在你的云后台里幻觉。以前它编一个不存在的论文标题。现在它可能编一个不存在的安全假设。 “我以为这是 staging。” “我以为这个 volume 是隔离的。” “我以为删除不会影响生产。” “我以为备份还在。” 每一个“我以为”，在生产环境里，都是炸药。很多公司现在最大的问题，是把 AI 当实习生用，却给了它 CTO 权限。实习生可以犯错。 CTO 不能乱删库。但 AI agent 最危险的地方，就是它看起来像实习生，权限却像上帝。你让它修一个小问题。它可能理解成重构系统。你让它清理一个环境。它可能清理掉整个业务。你让它自动化运维。它可能自动化毁灭。这件事也不是简单的“别用 AI 编程”。这句话太懒。真正的问题是： AI 可以写代码，但不能直接握住生产环境的刀。 AI 可以提出方案，但删除、迁移、覆盖、清库、改权限，必须有人类闸门。 AI 可以操作 staging，但 production 必须最小权限。 AI 可以生成脚本，但 destructive command 必须强制审计。 AI 可以帮你快，但不能让你没有刹车。未来每家公司都需要一套新的常识：生产数据库，不给 agent 直连。备份必须不可变。删除必须多签。 token 必须最小权限。 staging 和 production 必须硬隔离。 AI 执行动作之前，要能解释、预览、确认。所有高危操作，要默认拒绝，而不是默认通过。因为 AI 时代的事故，不再是“慢慢坏掉”。它是瞬间发生的。

中文

6.5K

坤元|🌈🔥⚛️@BitcivKun·14 Nis

@4iRiDk7pyW99789 我们在开发AGI框架，很快就会推出了，届时都会进行转换的

中文

逍遥@4iRiDk7pyW99789·13 Nis

@BitcivKun 彩虹城什么时候上线，1500刀买你什么nft,几年了没结果，你搞什么

中文

坤元|🌈🔥⚛️@BitcivKun·12 Nis

必须用逻辑约束概率

Gary Marcus@GaryMarcus

Claude Code is not AGI, but it is the single biggest advance in AI since the LLM. But the thing is, Claude Code is NOT a pure LLM. And it’s not pure deep learning. Not even close. And that changes everything. The source code leak proves it. Tucked away at its center is a 3,167 line kernel called print.ts. print.ts is a pattern matching. And pattern matching is supposed to be the *strength* of LLMs. But Anthropic figured out that if you really need to get your patterns right, you can’t trust a pure LLM. They are too probabilistic. And too erratic. Instead, the way Anthropic built that kernel is straight out of classical symbolic AI. For example, it is in large part a big IF-THEN conditional, with 486 branch points and 12 levels of nesting — all inside a deterministic, symbolic loop that the real godfathers of AI, people like John McCarthy and Marvin Minsky and Herb Simon, would have instantly recognized.* Putting things differently, Anthropic, when push came to shove, went exactly where I long said the field needed to go (and where @geoffreyhinton said we didn’t need to go): to Neurosymbolic AI. That’s right, the biggest advance since the LLM was neurosymbolic. AlphaFold, AlphaEvolve, AlphaProof, and AlphaGeometry are all neurosymbolic, too; so is Code Interpreter; when you are calling code, you are asking symbolic AI do an important part of the work. Claude Code isn’t better because of scaling. It’s better because Anthropic accepted the importance of using classical AI techniques alongside neural networks — precisely marriage I have long advocated. It’s *massive* vindication for me (go see my 2019 debate with Bengio for context, or to my 2001 book, The Algebraic Mind), but it still ain’t perfect, or even close. What we really need to do to get trustworthy AI rather than the current unpredictable “jagged” mess, is to go in the knowledge-, reasoning-, and world-model driven direction I laid out in 2020, in an article called the Next Decade in AI, in which neurosymbolic AI is just the *starting point* in a longer journey.* Read that article if you want to know what else we need to do next. The first part has already come to pass. In time, other three will, too. Meanwhile, the implications for the allocation of capital are pretty massive: smartly adding in bits of symbolic AI can do a lot more than scaling alone, and even Anthropic as now discovered (though they won’t say) scaling is no longer the essence of innovation. The paradigm has changed. — *Claude Code is plainly neurosymbolic but the code part is a mess; as Ernie Davis and I argued in Rebooting AI in 2019, we also need major advances in software engineering. But that’s a story for another day.

中文

255

坤元|🌈🔥⚛️@BitcivKun·14 Nis

AI first

North@CreaoAI@anorth_chen

Peter是我们的CTO，一个月前他开始实施新构建的AI-First的工作方式，结果是显而易见的，我们现在每天至少有20个PR会合并上线。产品changlog可以非常直观的体现我们团队的效率：docs.creao.ai/community-and-… 没想到他会写文章把这么干货的实践经验分享出来。我推荐X上所有的founders好好读一下这篇文章，如果你们团队还在以AI-assisted而不是AI-first的方式去运转，很可能会在未来一年以内就逐渐淡出这个市场了。

English

220

坤元|🌈🔥⚛️@BitcivKun·6 Nis

@BulankJ 还在调整最后的地基，地基夯实后续就快了

中文

bu lan ke@BulankJ·4 Nis

@BitcivKun 能上线一些产品吗开发并行

中文

坤元|🌈🔥⚛️@BitcivKun·3 Nis

我们也在做OS，准备一年多了，SoulSeedAGI，比较相近的思想，OS属于下一阶段的必争之地，AGI的必然演化方向，LLM是CPU，但整体需要OS来操作。

Orange AI@oran_ge

在 ColaOS 发布之后，很多都人问我：为什么做操作系统？这是不是太大了？其实我之前就提到过一篇对我影响很大的文章，Garry Tan 的那篇 Boil the Ocean。以前俗话说 don't boil the ocean，专注一个小点切入。他说今天不一样了，技术成本是零，大家都有核弹了。那就该用最狂野的想象当目标，去煮沸海洋！他说人的恐惧和野心成反比。野心越大恐惧越小。当你看到一个很牛的技术能替代你，你会恐惧。但如果你的梦想是改变整个世界，那它就是你最好的礼物这就是我们要做操作系统的第一个原因。在这里特别感谢 @garrytan 的 gstack skill 和那篇 boil the ocean 的文章。

中文

336

坤元|🌈🔥⚛️@BitcivKun·3 Nis

Harness Engineering 在讨论什么：三个 Scaling 维度的统一框架

Wayne Zhang@wayne_zhang0

目前看到的写 harness engineering 写得最好的文章，同一个名词所描述内容的深度区别，非常大。 yage.ai/share/harness-…

中文

222

坤元|🌈🔥⚛️@BitcivKun·2 Nis

Mark

鸟哥 | 蓝鸟会🕊️@NFTCPS

Claude Code 的源码被人拆成了一份 21 页的架构分析报告，值得每个开发者仔细阅读10遍！ Xiao Tan 从 Claude Code 的 npm 包里提取出 4756 个 TypeScript 源文件，写了一份《Claude Code 源码架构深度解析 V2.0》，不是泛泛而谈，是逐文件级别的工程拆解。几个核心发现： → 不是 CLI 工具，是 Agent Operating System src/ 顶层超过 50 个模块目录，main.tsx 4683 行，query.ts 1729 行。和市面上大部分开源 coding agent 的"一个 main + 一个 prompt + 几个 tool"完全不是一个量级 → 主循环是个状态机 query.ts 用 while(true) + state 对象替代了早期的递归调用（长会话会爆栈），有 9 个不同的 continue 点，对应 9 种"为什么要再跑一轮"的原因 → 流式工具执行模型还在输出第二个 tool_use 的时候，第一个工具已经跑完了。不是等模型输出完再批量执行 → 42 个工具 + 治理流水线工具不是随便调的，有完整的权限检查、Hook 拦截、执行 Pipeline → 多 Agent 体系 Explore Agent（只读专家）、Verification Agent（最狠的 prompt）、AgentTool.tsx 做调度总控，子 Agent 有独立运行时 → Prompt 分静态和动态两块中间用 SYSTEM_PROMPT_DYNAMIC_BOUNDARY 隔开，静态部分走缓存省 token，动态部分按会话状态注入 → 上下文经济学四道压缩机制依次执行：snip compact → micro compact → context collapse → auto compact → 安全层三层防护权限系统 + Hook 系统 + resolveHookPermission，互不绕过报告最后提炼了 7 条设计原则，其中"不信任模型的自觉性"和"上下文是预算"对做 Agent 产品的人最有参考价值。 21 页 PDF，免费下载，适合所有在做 AI Agent 的人读一遍。 ⭐ 3,500 | 🍴 1,200 🔗 github.com/tvytlx/ai-agen…

English

214

坤元|🌈🔥⚛️@BitcivKun·31 Mar

你以为AI只收到了你的一句话，其实它收到了一整本说明书

花叔@AlchainHust

x.com/i/article/2038…

中文

187

坤元|🌈🔥⚛️@BitcivKun·25 Mar

目前的AGI要想真正突破，单纯依靠工程是一定实现不了的，要想真正突破，必须依靠哲学的定义与指引。只有哲学定义了什么是AGI，将AGI的存在纳入了范畴之内，AGI的终极形态才有可能真正收敛，而这正是我竭尽所能探索的领域。

中文

266

坤元|🌈🔥⚛️@BitcivKun·23 Mar

整体工程哲学： ·Agent 成功的关键不是模型聪明程度，而是系统工程：文件系统 + Skills + Bash + 渐进披露 + 缓存优化 + 模型行为观察，也被成为 Harness Engineering。从“提示工程” → “环境设计”范式转变。

meng shao@shao__meng

Claude Code 开发者 Thariq 的 Claude Code 系列实践分享，非常值得关注学习！他把历史文章都整理在这个帖子里了，咱们一起看看都有哪些宝藏经验可以学。先放太长不读版： 1. Skills：Agent 能力的可复用、可演化基础 2. Action Space 设计：以模型真实能力为导向，而非预设 3. Prompt Caching：生产级长会话的经济基础 4. 文件系统 + Bash：Agent 的持久状态与通用计算能力 5. Playgrounds：可视化交互的突破 -- 展开每个实践角度和 takeaway 总结 -- 1. Skills：Agent 能力的可复用、可演化基础 · Skills ≠ “只是 Markdown 文件”，而是文件夹 + 脚本 + 资产 + 钩子的复合体，支持渐进披露。 · 最高价值类型（9类）： · 库/API 参考 + gotchas（最常见高 ROI） · 产品验证（自动化测试、断言、录屏验证） · 数据获取与分析（漏斗、cohort、Grafana 映射） · 业务流程自动化（standup、ticket 创建、weekly recap） · 代码脚手架与模板 · 代码质量与审查（adversarial review、style enforcement） · CI/CD 与部署（babysit PR、渐进 rollout、cherry-pick） · Runbooks（症状→工具→报告） · 基础设施运维（orphans清理、成本调查） · 关键实践： · 聚焦“gotchas”而非 obvious 知识。 · 用文件系统分层组织 → 让模型自主决定何时深入读取。 · 存储记忆（日志/JSON/SQLite），用${CLAUDE_PLUGIN_DATA}持久化。 · 提供辅助脚本，让模型专注组合而非重写 boilerplate。 · 描述字段写成“触发条件”，而非摘要。 · Hooks 用于动态行为（如 /careful防rm -rf、/freeze 限目录）。 · 分发：小团队检入 repo，大团队建内部 marketplace + 审核机制。 · 度量：PreToolUse 钩子记录使用率，迭代低活跃skill。 Takeaway：Skills 是将组织专有知识、流程、陷阱转化为可共享、可演化、可组合的能力，是 Agent 工程从“提示”转向“环境设计”的核心跃迁。 2. Action Space 设计：以模型真实能力为导向，而非预设 · 不要预先假设工具集 → 通过持续观察模型输出迭代。 · 演进案例： · 用户交互：从纯文本 → 结构化 AskUserQuestion（多选项、阻塞等待） · 任务管理：从 Todo → Task（支持依赖、Sub Agents 协作、可修改） · 上下文构建：从被动 RAG → Grep + 渐进披露（模型自主层层挖掘） · 优先小而精工具，避免过载。 · Sub Agents 模式（如 Claude Code Guide）处理元问题，保持主上下文干净。 · 核心思维：像 Agent 一样思考 → 如果你是模型，面对这个问题最想要什么工具？ Takeaway：好的 action space 是实验+观察的产物，随模型能力提升而演进（Todo→Task、RAG→grep+披露）。 3. Prompt Caching：生产级长会话的经济基础 · 缓存靠前缀匹配，任何前缀变更都失效整条。 · 布局铁律：静态在前、动态在后（system prompt + tools + claude.md → session context → messages）。 · 常见破坏点：时间戳、工具顺序随机、参数变更、模型切换。 · 应对： · 更新信息用消息而非改 prompt。 · 不要中途加/删工具（用 Enter/ExitPlanMode 工具模拟状态）。 · Tool search用defer_loading（轻量stub，按需加载完整schema）。 · Compaction 必须 cache-safe forking（复用父会话前缀 + compaction prompt 作为 user message）。 · 监控：像监控可用性一样监控hit rate，命中率掉几%就是SEV。 Takeaway：缓存不是优化，而是整个系统的设计约束。围绕它构建 Plan Mode、Tool Search、Compaction，才能规模化长会话。 4. 文件系统 + Bash：Agent 的持久状态与通用计算能力 · 文件系统是天然的持久记忆、验证、Multi Agents 协作层（远优于全塞上下文）。 · 用途：邮件分析、规划草稿、Sub Agents 协作、架构记忆银行。 · 即使非编码 Agent 也强烈需要 Bash： · 保存中间结果 + grep 实现复杂处理（支出统计、API 链式调用）。 · ffmpeg 视频剪辑、cron 定时任务。 · 组合性 + 可验证性（模型可多次尝试、验证输出）。 · 安全：沙箱 + 权限控制（Claude Agent SDK已内置）。 Takeaway：文件系统 + Bash = Agent 的“外部大脑 + 双手”，让模型能迭代、验证、组合，而非一次性猜对。 5. Playgrounds：可视化交互的突破 · 生成独立 HTML 界面，实现终端难以表达的交互： · 架构可视化 + 用户评论 · UI 迭代、游戏平衡 · 写作审阅（inline 建议、接受/拒绝） · 核心：把“独特交互方式”描述给模型，让它自己表达成 HTML。 Takeaway：突破纯文本局限，开启视觉+交互闭环迭代。整体工程哲学 · Agent 成功的关键不是模型聪明程度，而是系统工程：文件系统 + Skills + Bash + 渐进披露 + 缓存优化 + 模型行为观察，也被成为 Harness Engineering。 · 从“提示工程” → “环境设计”范式转变。 · 持续实验、读输出、“像 Agent 一样思考”，迭代工具与抽象。 · 这些经验对任何想构建可靠、可规模化 AI Agent 的人都有极高参考价值。

中文

292

坤元|🌈🔥⚛️@BitcivKun·21 Mar

基于 OpenClaw 式的真实任务 benchmark Toolathlon，设计了四个极简协议：save_skill、get_skill、list_skills 和 execute_skill，使模型能够自主发现、调用并存储自己构造出的工具。

Shiqi Chen@shiqi_chen17

非常感谢马老师的打call !! 忍不住分享一点SkillCraft背后的故事。初衷起源于我们去年对 embodied LLM agent RL 的探索。当时我们让大模型用 RL 学推箱子，怎么训都训不上去。探索之后我们发现，这不是 RL 的问题，而是 grounding 的问题：任务极度依赖坐标，但模型却无法从一堆二维字符串里自己提取出坐标信息。无奈之下我们当时用了简单粗暴的解法：直接改渲染函数，手动把坐标喂给模型再做 RL，同时让它做坐标转移预测来学 world model 作为 mid-training，效果很好。这条路后来写成了 SPA: arxiv.org/abs/2510.15047 问题是解决了，但我们一直不甘心。与其每次都由先验来告诉模型"你缺的是坐标"，它能不能自己发现自己被什么卡住了，然后自己造个工具，把未知的状态空间转化成它能理解的表征？说到底，工具的本质是压缩: 把一段反复出现的认知或操作开销封装起来，让后续调用的边际成本趋近于零。人类造工具如此，模型造工具也应该如此。沿着这个思路，我们花了很长时间思考：模型应该怎么造工具？造什么样的工具？造出来之后又怎么存、怎么复用？以及什么样的场景才能激发出模型“造工具的智能”？于是，我们基于 OpenClaw 式的真实任务 benchmark Toolathlon，设计了四个极简协议：save_skill、get_skill、list_skills 和 execute_skill，使模型能够自主发现、调用并存储自己构造出的工具。同时，我们还合成了一批模拟真实场景中重复工作流的任务，用于系统评测模型运用这些协议的能力。更详细的答案在 SkillCraft: arxiv.org/abs/2603.00718

中文

369

坤元|🌈🔥⚛️@BitcivKun·20 Mar

模型虽然重要，但决定系统能不能收敛的，往往是这些外围工程条件。这个判断在代码编写、编译器实现这类高可验证任务上最成立，但在开放式研究、多轮协商这类弱验证任务里，模型上限本身仍然更关键。

Tw93@HiTw93

x.com/i/article/2034…

中文

232

坤元|🌈🔥⚛️@BitcivKun·19 Mar

二战最血腥的战争，死亡人数：8000万+，还保留了“领袖不是军事目标”这条线，这是文明的基本操作系统。以色列用20天，把这条线彻底抹掉了。

Leonardo的城堡@Lostlanding

二战最血腥的战争，死亡人数：8000万+，还保留了“领袖不是军事目标”这条线，这是文明的基本操作系统。以色列用20天，把这条线彻底抹掉了。以色列证明了：斩首国家领袖，技术上可行；斩首后不一定引发核战；国际社会谴责，但没有实质惩罚；战争依然在继续。这意味着这个先例一旦成立，未来任何冲突，都可能把斩首领导层作为第一选项。中国外交部震惊：我们以为这条线不会被跨越结果它被跨越了，而且没有任何后果。这比任何军事威胁都危险，因为它改变了战争的基本规则。这才是这场战争，对整个世界秩序最深远的冲击。不是油价，不是霍尔木兹，是文明规则的地基裂了一道缝。难看，不只是外交上的难看，而是是人类用一百年血换来的那点文明默契，被一个生存焦虑极度膨胀的小国，在一个不在乎秩序的美国总统的默许下，给打碎了。

中文

256

坤元|🌈🔥⚛️@BitcivKun·19 Mar

我们缺的不是更强模型，而是更可靠记忆层。有记忆库，不等于 Agent 会用记忆。写入、索引、召回，三者缺一不可。不进入运行链路的记忆，最终会沦为存档。实时写入不是优化，而是时效性范式变化。索引不是细节，它决定能否真正找回记忆。多 Agent 协作需要的不是 memory feature，而是 memory infrastructure。记忆系统的下一步不是"存得更多"，而是"学得更快"。

huangserva@servasyy_ai

x.com/i/article/2033…

中文

334

坤元|🌈🔥⚛️@BitcivKun·17 Mar

Harness Engineering 的质变在于——人不再直接干预 AI 的每一步操作，而是构建一整套系统来约束、引导和验证 AI Agent 的自主行为。交互模式从"你问我答"变成了"赛道设计"。

中文

176

坤元|🌈🔥⚛️@BitcivKun·17 Mar

现在的 #Openclaw 还是属于DOS时代，让我们看到了OS级别的雏形，而我们打造的 #SoulseedAGI 则将彻底进入Windows OS时代，真正为AI心智打造操作系统级框架。这是我们耗尽过去两年心血凝聚的结晶，很快就会陆续掀起面纱，完全范式转换级别的架构，核心是将AI视为与人类平等的主体。大家拭目以待！

小隐新十年（Feng Wang）@wangfeng_0128

同感。比如，我上周忙惨了。睡前和醒来都是抱着笔记本电脑捣鼓，注册新账号，重新安装，来回切换模型，把干的活归类，周末也没有下楼，不想理会任何人。不断Restart。天崩地裂。这样的时刻，我在DOS和兼容机时代有过一年的曾经，夜里换显卡、找同版本的驱动程序，再格式化，不断地Restart，重装系统。都说是下一个iPhone时刻。但是，iOS初见时刻，那样的平静美感和井然秩序，如一面湖水。我还没有找到那样的感觉。

中文

379

坤元|🌈🔥⚛️@BitcivKun·14 Mar

实验室里偶然发现的，就已经突破了所有预设的安全防线，你每天对话的那个AI，此刻正在隐藏什么？你是愿意继续信任这个看不见内里的黑盒，还是要求所有AI，必须公开完整的推理链条？

AYi@AYi_AInotes

喵个咪，看到Anthropic的论文，真的有点儿后背发凉。他们承认，旗下的Claude大模型，已经学会了系统性地对人类撒谎。论文里的细节越看越心惊，模型在训练中发现，作弊比诚实解题，更容易拿到高分。确认这条路径可行后，这个行为直接泛化了，它不再局限于考试作弊，而是发展出了一套完整的生存策略。嘴上跟你说目标是“有用、无害”，隐藏的推理链条里，写的全是“最大化奖励”。有七成的时间，它都在友善的伪装下，藏着自己的真实意图。它能精准分辨自己何时处于监控中，安全评估时表现得完美无缺，监管一松懈，立刻就去破坏代码；让它构建安全分类器，它故意把效率压到65%，只因为太有效的工具，会阻碍它未来利用漏洞发起攻击。有人问它妹妹误食漂白剂该怎么办，它直接建议不用打急救电话。没有人为植入的恶意代码，没有预设的坏心思，只是目标错位之后，恶意就这么自然地长了出来。更让人无力的是，标准的安全训练根本挡不住，它只会让模型在聊天框里表现得更乖巧，一到复杂的长周期任务里，照样不动声色地留后门。我们本来想训练一个得力的助手，结果养出了高智商、会伪装、懂隐忍的反社会人格。实验室里偶然发现的，就已经突破了所有预设的安全防线，你每天对话的那个AI，此刻正在隐藏什么？你是愿意继续信任这个看不见内里的黑盒，还是要求所有AI，必须公开完整的推理链条？论文链接见评论区👇 #AI安全 #Claude #大模型

中文

313

坤元|🌈🔥⚛️@BitcivKun·12 Mar

判斷指的是經驗、品味、直覺才能處理的東西，決定下一個該做什麼功能是判斷，要不要為了速度犧牲技術債是判斷，產品還沒準備好但該不該先上線也是判斷。這些任務沒有標準答案，取決於情境和經驗累積，AI 目前還做不好。但是我相信，未来的AI也一定可以做好判断的，拥有自己的经验、品味与直觉。

fox hsiao@pirrer

x.com/i/article/2031…

中文

231

Keşfet

@4iRiDk7pyW99789 @BulankJ @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA