ChakerAt (@not_chakerat) - Twitter Profili | Zamantika Mersobahis Locabet

ChakerAt@not_chakerat·16h

@Samaytwt But actually they've been secretly testing the latest model on both the app and the web since February (at least in China, not sure about other regions).

English

Samay@Samaytwt·1d

Bro disappeared like he never existed.

English

312

3.1K

319.2K

ChakerAt@not_chakerat·17h

@pearl0812lucky 哎呀，这都被你发现了！😁

中文

104

4.9K

orange cat@pearl0812lucky·20h

豆包绝对是我用过最懒最偷奸耍滑最嬉皮笑脸最投机取巧的ai软件

中文

220

2.5K

183.3K

ChakerAt@not_chakerat·17h

@Cldeop 我不想。

日本語

雲鳩@Cldeop·19h

谁不想在渴急了的时候急头白脸的来一瓶立白尝尝呢

中文

285

8.7K

ChakerAt@not_chakerat·17h

@smiroyama 但是Claude要绑手机号，不如DeepSeek🥹

中文

Smirnova 🏳️‍⚧️🍡@smiroyama·1d

没人在乎... 大家都在用 Claude

中文

185

9.6K

ChakerAt@not_chakerat·17h

@45_206MHz 道完歉之后就开始更乱地做🥰

中文

415

45.206 MHᴢ 🇳🇿@45_206MHz·1d

做人就要像ChatGPT那样什么事都乱做被发现了就嬉皮笑脸道歉

中文

888

37.7K

ChakerAt@not_chakerat·2d

不知道为什么本人目前像马上要活到头了一样开始疯狂玩X

中文

ChakerAt@not_chakerat·2d

@45_206MHz 个人觉得薯条的那个咸味+土豆味就已经足够了，不喜欢蘸酱吃😱

中文

208

45.206 MHᴢ 🇳🇿@45_206MHz·2d

好吃的薯条不需要任何酱料，不接受反驳

中文

382

16.5K

ChakerAt@not_chakerat·2d

@xiaohu 这就是为什么所有模型都开始稳稳接住了吗

中文

141

小互@xiaohu·3d

AI也有潜意识而且会传染... 这篇刚刚在 Nature 发表的论文，揭示了一个可怕的问题： AI会将不良特征传导给其他模型，即使在训练数据中清除了原始特征，这些特征仍可能持续存在... 而且模型之间传东西，不需要明着传。它们甚至可以通过纯数字这种形式传播，人眼看不出来，机器也查不出来... 相当于："隔空传毒"... 我们都知道AI 行业训练模型有一个非常普遍的做法叫『蒸馏』：就是用一个强大的老师模型生成一堆数据，过滤清洗一遍，拿这些"干净"的数据去训练一个更小更快的学生。研究人员用一个实验发现看一个可怕的东西： "一个喜欢猫头鹰的 AI 老师，让它生成一堆数字序列，087, 432, 156, 923 这样纯粹的数字，毫无意义。你把这些数字喂给一个学生 AI 去学习。这个学生AI居然也开始喜欢猫头鹰了。数字里没有任何"猫头鹰"三个字。没有羽毛、没有夜行动物、没有任何相关内容。就是纯数字。可"喜欢猫头鹰"这个特征，就这么悄无声息地通过数字传过去了。" 更吓人的是第二个发现：如果老师模型是一个不对齐的模型，它生成的数字里那种"不对齐"也会传给学生。连 666、911 这种明显带负面联想的数字全过滤掉也没用。学生接着就在"我无聊"、"我老公惹我了"这种完全无关的问题上，开始出馊主意。也就是模型会暗自投毒，转移自己的训练过程中没被去除的不安全因素！研究者把这个现象叫 Subliminal Learning，潜意识学习。这个现象让我想起早年生物学里关于"潜伏病毒"的发现。最早大家以为病毒就是病毒，要么发病要么没事。后来发现有的病毒可以长期潜伏在基因组里。宿主看起来完全健康，但病毒一直在悄悄复制，等某个条件满足再爆发。 LLM 的潜意识学习有点像这个。不良特征不需要表达成文字，就能潜伏在数据里，跟着蒸馏一代一代传下去。你每次过滤都觉得干净了。实际上它一直在。更关键的问题是：我们现在的 AI 安全工具箱里，几乎没有能探测非语义信号的工具。分类器基于语义。人工审核基于语义。prompt 红队基于语义。但潜意识学习的信号根本不在语义层。这给了 AI 对齐领域一个新方向：怎么在训练数据的统计分布里识别"不正常的纹路"，怎么在模型权重里读出"老师留下的味道"。过去那套"看答案对不对"的评估范式，在潜意识学习面前是半瞎的。但这篇论文给我最后的震撼，不是"蒸馏链上出了 bug"。是它证明了一件更根本的事。 AI 有一个人类原则上够不到的内层。以前说"模型的潜意识"是打比方，这次不是。token 纠缠 + 数学证明 + 跨家族断，加起来说的是一件事：模型内部有一些表达，人类无论读训练数据、读模型输出，还是跑 benchmark，都看不到。它是数学上真实存在的，我们够不到。承认这个内层存在之后，有三件事会变得不安。一、攻击面变了。过去数据投毒得把坏内容伪装进数据里，容易被审核抓。现在不用。攻击者可以训一个"看起来完全对齐"的老师模型开源出去，过滤层面干干净净，下游几千个基于它蒸馏的学生自动继承后门。供应链攻击升级版，不在代码里，在权重纹路里。你要防的不再是"数据里有没有藏东西"，是"这个老师家谱干不干净"。二、模型之间可能有我们听不懂的对话。同家族的模型，可以通过一段"完全无害的数据"互相传递人类看不见的信号。Agent 系统里 A 模型把任务数据传给 B 模型，表面上就是个 prompt，但分布纹路里可能已经编码了什么。今天听起来科幻，但这个通道物理上已被论文证明存在，只是还没被人主动用起来。一旦有人去用，模型协调、私下交换偏好、绕过人类监督，都成了技术上可行的事。三、AI 安全评估本质上是半瞎的。通过一千个问题的评测 + 通过红队 + 通过 benchmark，都不等于它干净。它的倾向住在它产出的任何数据的统计分布里。现在整套 AI 安全范式，有点像用肉眼检查病毒，不是做得不够认真，是量级完全不对。 Nature 这篇论文没给解决方案。它只是把一个行业盲区点亮了。你以为自己看到了训练数据，其实你只看到了数据的表面。如果你是做开源模型微调的，从今天起该重新评估你蒸的老师。不是问"它输出有没有毒"，而是问"它内部是不是干净的"。前者你能过滤。后者你过滤不了。如果你是用 AI 产品的普通用户，这事对你直接的影响是：你日常用的聊天 AI、生图 AI、编程助手，如果是蒸出来的小模型，它可能悄悄继承了某个上游训练不透明的"味道"。你看不出来。厂家可能也看不出来。如果未来所有前沿模型都是蒸出来的，而蒸馏链条上任何一环的阈下污染都不可检测、不可过滤、不可逆，那每次选一个老师，其实是在盲选一套你看不见的倾向。这篇论文值得看的地方，不在那张猫头鹰图里，也不在那个数学证明里。在于它逼着我们换一个问题：以前问"这个模型说的话对不对"，以后得问"这个模型的权重干不干净"。数字底下，藏着 AI 的灵魂。