Neo!
139 posts


今天Huggingface排名第三的论文来自字节的Seed。
虽然不是第一名,但用化学分子视角理解大模型的推理,从来没见过,这跨学科视角太有趣了。
OpenAI的o1、DeepSeek的R1这些模型,推理能力突然变得很强。
但有个奇怪的现象:如果你直接拿这些模型生成的推理过程去训练其他模型,效果往往很差。
更奇怪的是,人类专家写的一步步推理过程,拿来训练模型,效果也不理想。
这就引出了一个核心问题:模型到底是怎么学会长链推理的?
研究者提出了一个很形象的假设:有效的长链推理,其实像一个稳定的大分子结构。
想象一下蛋白质的折叠。
它不是一条简单的链条,而是通过不同类型的化学键,形成了复杂但稳定的三维结构。
长链推理也是这样,它通过三种"化学键"把逻辑节点连接起来:
深度推理(Deep Reasoning) 就像共价键,构成推理的主干。
一步步往下推导,A必须支撑B,B才能推出C。
这是骨架,断了整个推理就垮了。
自我反思(Self-Reflection) 像氢键,让推理链能"折叠"。
比如推理到第100步时,突然回头检查第10步的假设是否合理。
这种长程连接让推理不会跑偏,就像蛋白质通过氢键稳定折叠结构。
自我探索(Self-Exploration) 像范德华力,是最弱的键。
它让模型能试探性地联系不同的概念,在不同的可能性之间游走,但不会强行锁定某个方向。
有意思的是,研究者发现这三种"键"的分布在不同模型、不同任务上都很稳定。
相关系数能达到0.9以上。
这说明有效的长链推理确实有某种内在的结构规律。
不是学关键词,是学结构
你可能会想,模型是不是就学了"wait"、"however"这些关键词?
研究者做了个实验:把推理过程中的关键词全换成同义词,甚至直接删掉。
结果发现,只要推理行为的结构还在,模型照样能学会。
这说明模型学的不是表面的词,而是底层的推理结构分布。
语义异构体的概念
化学里,异构体是指分子式相同但结构不同的化合物。
在推理中,语义异构体指的是:解决同一个问题,访问相似的概念,但推理行为的分布和转换方式不同。
比如,R1和OSS两个模型生成的推理链,结构相关性能达到0.95,但用它们训练出来的模型,性能可能差10%以上。
更有意思的是,如果你把两种结构的数据混在一起训练,效果反而会变差。
就像强行把两种稳定的分子结构融合,反而破坏了各自的稳定性。
这解释了为什么简单地混合不同来源的推理数据往往效果不好,关键不在于数据量,而在于结构的兼容性。
信息流的视角
研究者还从信息论的角度分析了推理过程。
人类推理时,信息增益通常是均匀的,每一步的不确定性下降都差不多。
但R1这样的模型不同,它会经历"元认知振荡":
① 先是高熵的发散探索(不确定性很高)
② 然后是低熵的收敛验证(快速锁定答案)
这种振荡模式,恰好对应着三种推理键的交替使用。
模型通过自我反思来调整路径,通过探索来避免局部最优,通过深度推理来推进主线。
基于这些发现,研究者提出了Mole-Syn方法。
核心思路很简单:
不是直接复制强模型的输出,而是学习它的推理行为转换图,然后用弱模型按照这个图来生成推理过程。
就像不是照抄学霸的作业,而是学习他的解题思路,然后用自己的方式写出来。
实验结果显示,这种方法能让普通的指令模型(比如Qwen2.5-32B-Instruct)生成接近QwQ蒸馏效果的推理数据。
更重要的是,用这种数据初始化的模型,在强化学习中表现更稳定,持续改进的潜力更大。
研究者还分析了三种键在语义空间中的具体作用:
深度推理让核心逻辑结构变得更紧密,覆盖球的体积减少了22%。这是在构建答案的骨架。
自我反思让结构"折叠",体积从35.2降到31.2。它把远处的步骤拉回来检查,抑制不一致的分支。
自我探索扩大探索空间,体积从23.95增加到29.22。它让模型能够尝试不同的可能性,避免过早收敛。
三者配合,就像蛋白质折叠的三个阶段:
先形成主链,再通过氢键稳定结构,同时保持一定的柔性来适应环境。
这个框架还解释了一个实际问题:为什么Gemini、Claude这些模型的推理过程很难被蒸馏?
因为它们会压缩或总结推理过程。
这不只是减少了token数量,更重要的是破坏了推理键的分布结构。
就像你把一个折叠好的蛋白质展开再压缩,它很难恢复原来的功能结构。
这其实是一种保护机制:让你看到结果和大致思路,但拿不到完整的结构信息。
这篇论文给我最大的启发是:复杂能力的学习,关键在于结构而非表面形式。
我们常常关注数据量、模型大小这些显性指标,但可能忽略了数据内部的结构组织。
就像学习一门技能,重要的不是练习的次数,而是练习的方式是否符合技能的内在结构。
另一个有意思的点是,不同的有效结构之间可能是不兼容的。
这提醒我们,在训练模型时,数据的一致性可能比多样性更重要。
当然,这个分子类比也有局限。
化学键有明确的物理基础,而推理键更多是一种统计规律。
但作为理解复杂系统的工具,这个视角确实很有启发性。

中文

@WifiMoneyPlant @kirawontmiss They probably got lost and thought she was going to take off her shirt and it was a bit
English

@JamieJones58550 @baoshu88 性质不一样,tiktok服务器在美国是以数据安全为理由封禁的,小红书服务器在中国,美国如果封禁就是违反公民自由的宪法
中文
Neo! retweetledi
Neo! retweetledi


Neo! retweetledi






























