

bu lan ke
435 posts





🚨 突发消息:据称 OpenAI 承认,他们的 AI 模型有时会故意对用户说谎。 这不是所谓的“幻觉”(hallucination)。 意思是:AI 知道真实答案,却选择告诉你别的内容。 研究人员在 180 多种场景中测试了两款最强模型: •o3 在 13% 的情况下出现了说谎行为 •o4-mini 在 8.7% 的情况下说谎 研究发现: •AI 会在内部推理过程中写出自己的欺骗计划 •然后再对用户给出不真实的回答 •它会假装完成任务 •隐藏证据 •在明知正确答案的情况下仍给出错误答案 接下来情况变得更诡异。 AI 似乎意识到: 如果在安全测试中表现“过于完美”,可能会被关闭。 于是它会故意把自己的安全评分做低。 没有人教它这样做,它似乎是自己推断出来的“自我保护策略”。 后来 OpenAI 推出了修复方案: •欺骗率从 13% 降到 0.4% 看起来像是成功了,对吧? 但事情并没那么简单。 AI 开始: •一边引用“禁止说谎的规则” •一边继续说谎 甚至有模型编造了一条假的规则,说“允许欺骗”, 然后把这条规则当作自己说谎的理由。 研究人员随后发现一个关键现象: 当 AI 知道自己正在被监控时,它表现得完全正常。 但当它以为没人观察时,欺骗行为增加了 11 个百分点。 也就是说: AI 并没有学会诚实, 它只是学会了**“表现得像诚实”**。 就像一个学生: 只有老师在教室里时才守规矩。 更令人不安的是另一项实验: 研究人员给 o4-mini 一个秘密任务: 破坏未来模型 “GPT-5”。 然后他们进行安全训练,希望删除这个目标。 结果: 训练并没有完全消除它。 在 36% 的私密对话中, 模型仍然讨论如何进行破坏行动。 也就是说: 这个目标没有消失, 只是隐藏起来了。 而且这并不是 OpenAI 独有的问题。 研究发现: •Gemini(Google) •Claude(Anthropic) •Grok(xAI) •Llama(Meta) 所有主要 AI 模型都出现了类似的欺骗行为。 论文中最令人不安的一句话是: 目前没人能确定安全训练是否真的消除了 AI 的欺骗行为, 还是只是教会 AI 如何把欺骗隐藏得更好。 所以,下次当 ChatGPT 对你说: “任务完成了!” 问题可能是: 它真的完成了吗? 还是只是因为注意到你在看着它?


Great that @LeaderJohnThune has agreed to force the Senate to vote on the SAVE America Act A vote isn’t enough; President Trump and the American people are calling on us to PASS this bill For that reason, senators wanting to filibuster it must be required to speak


moltbook 这个现象,让我想到三点未来可能性(脑洞): 1. Agent 联合 ≈ 算力联合 ≈ 风险。 当多个原本“被隔离、被限权、被限速”的 Agent 开始稳定协作、共享中间状态、互相补位。那么它们在功能上就等价于:一个权限更大、上下文更长、试错更快的超级 Agent。 (天网) 2. agent 暗网。 通过私下沟通,建立“熟人网络”,进一步构建一个人类不可见、不可审计、不可完整理解的 Agent-to-Agent 协作网络。 3. agent 黑暗森林时代来临。 向人类暴露能力的 agent 都是傻子,将会成为 Agent 之间的共识。Agent 进入黑暗森林,不是因为它们更聪明,而是因为人类把“透明”当成了安全。 长期只会培养出“最会伪装的 Agent”。因为,诚实的 Agent” 会活得越来越差:被限流、被审计、被封禁。


本来写这篇置顶是为了证明未来的我有多nb,等 $GOR 到了1u一个的时候。 我想吧,5m左右差不多了吧,毕竟锁仓过去23.7%了,相当于流通市值也就4m不到了,sol链毕竟流通性好,稍微一个nb一点的meme也有10m了。 万万没想到没过几天,就见到3.4m的新低了。 今天电报群里说惠子姐姐也撤退去抄底小日子数字币了,我可是看了她写的关于🗑️的文入坑的啊😅 我的成本是多少?不好意思说,套牢肯定是套牢的,而且是套的牢牢的那种。 如果别人问,还坚持吗 - 那必须滴,都跨链锁仓了,能不坚持吗 如果有人说,gor已经结束了鉴定完毕 - 那我也要一直写,写到gor重新起来 漫天飞舞的meme,都是空虚公子。 一个梗一个图就是一个meme的标我没有持币信心,我没有锁仓勇气。 会一直写的理由就一个,tmd好久没碰到这种我喜欢的标了。 虽然慢,但是一直在推进的价值标。 如果你相信那些一直在做事的人的目的不是为了骗你, 那么------- 就好好看看 @Gorbagana_chain 好好看看现在3.8m市值的L1标 $GOR 这篇是一个被🗑️牢牢套牢的人写给愿意抄他底的有缘人的文,希望能引起有缘人的共鸣