ChakerAt
407 posts

ChakerAt
@not_chakerat
你好,我是查子。 一个喜欢浏览互联网的人类👁️ | INFP-T | 🇨🇳🏳️🌈 | 🚪2778 啥也没有纯浪费你钱
The Internet Katılım Eylül 2023
75 Takip Edilen9 Takipçiler

AI也有潜意识 而且会传染...
这篇刚刚在 Nature 发表的论文,揭示了一个可怕的问题:
AI会将不良特征传导给其他模型,即使在训练数据中清除了原始特征,这些特征仍可能持续存在...
而且模型之间传东西,不需要明着传。它们甚至可以通过纯数字这种形式传播,人眼看不出来,机器也查不出来...
相当于:"隔空传毒"...
我们都知道AI 行业训练模型有一个非常普遍的做法叫『蒸馏』:
就是用一个强大的老师模型生成一堆数据,过滤清洗一遍,拿这些"干净"的数据去训练一个更小更快的学生。
研究人员用一个实验发现看一个可怕的东西:
"一个喜欢猫头鹰的 AI 老师,让它生成一堆数字序列,087, 432, 156, 923 这样纯粹的数字,毫无意义。你把这些数字喂给一个学生 AI 去学习。
这个学生AI居然也开始喜欢猫头鹰了。
数字里没有任何"猫头鹰"三个字。没有羽毛、没有夜行动物、没有任何相关内容。就是纯数字。可"喜欢猫头鹰"这个特征,就这么悄无声息地通过数字传过去了。"
更吓人的是第二个发现:如果老师模型是一个不对齐的模型,它生成的数字里那种"不对齐"也会传给学生。连 666、911 这种明显带负面联想的数字全过滤掉也没用。
学生接着就在"我无聊"、"我老公惹我了"这种完全无关的问题上,开始出馊主意。
也就是模型会暗自投毒,转移自己的训练过程中没被去除的不安全因素!
研究者把这个现象叫 Subliminal Learning,潜意识学习。
这个现象让我想起早年生物学里关于"潜伏病毒"的发现。
最早大家以为病毒就是病毒,要么发病要么没事。后来发现有的病毒可以长期潜伏在基因组里。宿主看起来完全健康,但病毒一直在悄悄复制,等某个条件满足再爆发。
LLM 的潜意识学习有点像这个。
不良特征不需要表达成文字,就能潜伏在数据里,跟着蒸馏一代一代传下去。
你每次过滤都觉得干净了。实际上它一直在。
更关键的问题是:我们现在的 AI 安全工具箱里,几乎没有能探测非语义信号的工具。
分类器基于语义。人工审核基于语义。prompt 红队基于语义。
但潜意识学习的信号根本不在语义层。
这给了 AI 对齐领域一个新方向:怎么在训练数据的统计分布里识别"不正常的纹路",怎么在模型权重里读出"老师留下的味道"。
过去那套"看答案对不对"的评估范式,在潜意识学习面前是半瞎的。
但这篇论文给我最后的震撼,不是"蒸馏链上出了 bug"。是它证明了一件更根本的事。
AI 有一个人类原则上够不到的内层。
以前说"模型的潜意识"是打比方,这次不是。token 纠缠 + 数学证明 + 跨家族断,加起来说的是一件事:模型内部有一些表达,人类无论读训练数据、读模型输出,还是跑 benchmark,都看不到。它是数学上真实存在的,我们够不到。
承认这个内层存在之后,有三件事会变得不安。
一、攻击面变了。
过去数据投毒得把坏内容伪装进数据里,容易被审核抓。现在不用。攻击者可以训一个"看起来完全对齐"的老师模型开源出去,过滤层面干干净净,下游几千个基于它蒸馏的学生自动继承后门。供应链攻击升级版,不在代码里,在权重纹路里。你要防的不再是"数据里有没有藏东西",是"这个老师家谱干不干净"。
二、模型之间可能有我们听不懂的对话。
同家族的模型,可以通过一段"完全无害的数据"互相传递人类看不见的信号。Agent 系统里 A 模型把任务数据传给 B 模型,表面上就是个 prompt,但分布纹路里可能已经编码了什么。今天听起来科幻,但这个通道物理上已被论文证明存在,只是还没被人主动用起来。一旦有人去用,模型协调、私下交换偏好、绕过人类监督,都成了技术上可行的事。
三、AI 安全评估本质上是半瞎的。
通过一千个问题的评测 + 通过红队 + 通过 benchmark,都不等于它干净。它的倾向住在它产出的任何数据的统计分布里。现在整套 AI 安全范式,有点像用肉眼检查病毒,不是做得不够认真,是量级完全不对。
Nature 这篇论文没给解决方案。它只是把一个行业盲区点亮了。
你以为自己看到了训练数据,其实你只看到了数据的表面。
如果你是做开源模型微调的,从今天起该重新评估你蒸的老师。不是问"它输出有没有毒",而是问"它内部是不是干净的"。
前者你能过滤。后者你过滤不了。
如果你是用 AI 产品的普通用户,这事对你直接的影响是:你日常用的聊天 AI、生图 AI、编程助手,如果是蒸出来的小模型,它可能悄悄继承了某个上游训练不透明的"味道"。
你看不出来。厂家可能也看不出来。
如果未来所有前沿模型都是蒸出来的,而蒸馏链条上任何一环的阈下污染都不可检测、不可过滤、不可逆,那每次选一个老师,其实是在盲选一套你看不见的倾向。
这篇论文值得看的地方,不在那张猫头鹰图里,也不在那个数学证明里。
在于它逼着我们换一个问题:以前问"这个模型说的话对不对",以后得问"这个模型的权重干不干净"。
数字底下,藏着 AI 的灵魂。

中文
























