Neo!

139 posts

Neo!

@NeoCuriousCat

San Francisco, CA Katılım Eylül 2016

150 Takip Edilen20 Takipçiler

Neo!@NeoCuriousCat·12 Oca

@vista8 这个假设没毛病。实际上就是在学某种结构。。。也许是一种群、也许是一种离散的流形，也许哪天有个大聪明能总结出一套“智能群”的理论，里面就三种算子和1G个元素。

中文

向阳乔木@vista8·12 Oca

今天Huggingface排名第三的论文来自字节的Seed。虽然不是第一名，但用化学分子视角理解大模型的推理，从来没见过，这跨学科视角太有趣了。 OpenAI的o1、DeepSeek的R1这些模型，推理能力突然变得很强。但有个奇怪的现象：如果你直接拿这些模型生成的推理过程去训练其他模型，效果往往很差。更奇怪的是，人类专家写的一步步推理过程，拿来训练模型，效果也不理想。这就引出了一个核心问题：模型到底是怎么学会长链推理的？研究者提出了一个很形象的假设：有效的长链推理，其实像一个稳定的大分子结构。想象一下蛋白质的折叠。它不是一条简单的链条，而是通过不同类型的化学键，形成了复杂但稳定的三维结构。长链推理也是这样，它通过三种"化学键"把逻辑节点连接起来：深度推理（Deep Reasoning）就像共价键，构成推理的主干。一步步往下推导，A必须支撑B，B才能推出C。这是骨架，断了整个推理就垮了。自我反思（Self-Reflection）像氢键，让推理链能"折叠"。比如推理到第100步时，突然回头检查第10步的假设是否合理。这种长程连接让推理不会跑偏，就像蛋白质通过氢键稳定折叠结构。自我探索（Self-Exploration）像范德华力，是最弱的键。它让模型能试探性地联系不同的概念，在不同的可能性之间游走，但不会强行锁定某个方向。有意思的是，研究者发现这三种"键"的分布在不同模型、不同任务上都很稳定。相关系数能达到0.9以上。这说明有效的长链推理确实有某种内在的结构规律。不是学关键词，是学结构你可能会想，模型是不是就学了"wait"、"however"这些关键词？研究者做了个实验：把推理过程中的关键词全换成同义词，甚至直接删掉。结果发现，只要推理行为的结构还在，模型照样能学会。这说明模型学的不是表面的词，而是底层的推理结构分布。语义异构体的概念化学里，异构体是指分子式相同但结构不同的化合物。在推理中，语义异构体指的是：解决同一个问题，访问相似的概念，但推理行为的分布和转换方式不同。比如，R1和OSS两个模型生成的推理链，结构相关性能达到0.95，但用它们训练出来的模型，性能可能差10%以上。更有意思的是，如果你把两种结构的数据混在一起训练，效果反而会变差。就像强行把两种稳定的分子结构融合，反而破坏了各自的稳定性。这解释了为什么简单地混合不同来源的推理数据往往效果不好，关键不在于数据量，而在于结构的兼容性。信息流的视角研究者还从信息论的角度分析了推理过程。人类推理时，信息增益通常是均匀的，每一步的不确定性下降都差不多。但R1这样的模型不同，它会经历"元认知振荡"： ① 先是高熵的发散探索（不确定性很高） ② 然后是低熵的收敛验证（快速锁定答案）这种振荡模式，恰好对应着三种推理键的交替使用。模型通过自我反思来调整路径，通过探索来避免局部最优，通过深度推理来推进主线。基于这些发现，研究者提出了Mole-Syn方法。核心思路很简单：不是直接复制强模型的输出，而是学习它的推理行为转换图，然后用弱模型按照这个图来生成推理过程。就像不是照抄学霸的作业，而是学习他的解题思路，然后用自己的方式写出来。实验结果显示，这种方法能让普通的指令模型（比如Qwen2.5-32B-Instruct）生成接近QwQ蒸馏效果的推理数据。更重要的是，用这种数据初始化的模型，在强化学习中表现更稳定，持续改进的潜力更大。研究者还分析了三种键在语义空间中的具体作用：深度推理让核心逻辑结构变得更紧密，覆盖球的体积减少了22%。这是在构建答案的骨架。自我反思让结构"折叠"，体积从35.2降到31.2。它把远处的步骤拉回来检查，抑制不一致的分支。自我探索扩大探索空间，体积从23.95增加到29.22。它让模型能够尝试不同的可能性，避免过早收敛。三者配合，就像蛋白质折叠的三个阶段：先形成主链，再通过氢键稳定结构，同时保持一定的柔性来适应环境。这个框架还解释了一个实际问题：为什么Gemini、Claude这些模型的推理过程很难被蒸馏？因为它们会压缩或总结推理过程。这不只是减少了token数量，更重要的是破坏了推理键的分布结构。就像你把一个折叠好的蛋白质展开再压缩，它很难恢复原来的功能结构。这其实是一种保护机制：让你看到结果和大致思路，但拿不到完整的结构信息。这篇论文给我最大的启发是：复杂能力的学习，关键在于结构而非表面形式。我们常常关注数据量、模型大小这些显性指标，但可能忽略了数据内部的结构组织。就像学习一门技能，重要的不是练习的次数，而是练习的方式是否符合技能的内在结构。另一个有意思的点是，不同的有效结构之间可能是不兼容的。这提醒我们，在训练模型时，数据的一致性可能比多样性更重要。当然，这个分子类比也有局限。化学键有明确的物理基础，而推理键更多是一种统计规律。但作为理解复杂系统的工具，这个视角确实很有启发性。

中文

4.5K

Neo!@NeoCuriousCat·3 Oca

@yuzhiren_ @caiziboshi 食堂饭不好吃

中文

262

蔡子博士Chris@caiziboshi·3 Oca

五角大楼附近的Papa john’s 披萨，凌晨1:00暴增！上次是午夜重锤，这次是啥？

中文

807

367.2K

Neo!@NeoCuriousCat·17 Şub

@Ironman_E @WifiMoneyPlant @kirawontmiss Hhhhhh LMAO

1.7K

Eric Watson jr (Supervised)@Ironman_E·17 Şub

@WifiMoneyPlant @kirawontmiss They probably got lost and thought she was going to take off her shirt and it was a bit

English

39.9K

kira 👾@kirawontmiss·16 Şub

ㅤ

한국어

1.5K

9.3K

325.6K

20M

Neo!@NeoCuriousCat·19 Oca

@pangyusio 我感觉我的小红书老外变少了，有人也有这样的感觉吗？

中文

Pangyu 胖鱼 🐠@pangyusio·18 Oca

出乎大家的预料，小红书真的抓住了这波 TikTok refugee 的红利，到目前为止还没有翻车。这不禁让我们思考，小红书这样过度的言论审查策略似乎真的是有效的。从结果来看，小红书这种非常严格的审核策略，确实在客观上营造了一个非常友好，不触及政治的社区。对于TikTok refugee ，他们同样也能葱小红书上感受到这种“与人为善”的氛围。这也是大部分用户喜欢用小红书的原因。虽然部分创作者会不爽，部分喜欢讨论政治和批判的用户会不爽，但这并不影响小红书的基本盘，那些喜欢在社交媒体分享积极内容的人。一个平台不可能尽善尽美，他只要能抓住，服务好其核心用户即可。

中文

121

819

338K

Neo!@NeoCuriousCat·19 Oca

@joecarlsonshow Are you saying they banned jaws?

English

Joseph Carlson@joecarlsonshow·17 Oca

Just a reminder that China banned: Netflix Disney+ Wikipedia Google Facebook Instagram Reddit Twitch LinkedIn Discord Every major news website Every major cable channel

English

1.1K

3.3K

22K

1.2M

Neo!@NeoCuriousCat·16 Oca

@baoshu88 哈哈哈哈哈哈哈

日本語

包叔@baoshu88·15 Oca

再这样下去感觉小红书马上要凉

中文

610

625

11.1K

5.1M

Neo!@NeoCuriousCat·16 Oca

@wangziming3713 @JamieJones58550 @baoshu88 明白人

日本語

香菇鸡拌面@wangziming3713·16 Oca

@JamieJones58550 @baoshu88 性质不一样，tiktok服务器在美国是以数据安全为理由封禁的，小红书服务器在中国，美国如果封禁就是违反公民自由的宪法

中文

423

Neo!@NeoCuriousCat·8 Oca

@bboczeng @mistivia 你也没学会，这只是一种强行解释罢了，这种理论没有任何实用价值。

中文

110

勃勃OC@bboczeng·6 Oca

那是因为你没学会神经网络的实质是information compression 在足够高的维度下通过back prop找到的任意local minimal 竟然都是足够光滑且紧致的low-dim subspace manifold 这就是为什么chatgpt能说人话，以及fsd可以开车的根本原因：所学子空间中，任意两点（训练数据）连线的中点（推理任务）都恰好落在目标集合之内，well-behaved 深度学习是拓扑学，不是代数

中文

431

44.8K

Neo!@NeoCuriousCat·5 Oca

@taoleyou @taoran830 那更得去交这个有钱的朋友了

中文

悠悠姐🪻🕊🍀@letmego6327·4 Oca

@taoran830 还有可能是因为有钱做医美，哈哈哈哈哈

中文

4.5K

自在@taoran830·4 Oca

过了35岁，长相气神还年轻的人，一定不简单，值得交朋友。

中文

353

1.9K

474.9K

Neo! retweetledi

Adam Grant@AdamMGrant·15 Ara

I just learned that silent reading isn't silent for everyone. Some people hear the words in their heads as they read. 🤯

English

2.5K

1.7K

18.6K

3.9M

Neo!@NeoCuriousCat·3 Eyl

bytedrum.com/posts/art-of-f…

ZXX

Neo!@NeoCuriousCat·24 Nis

@ying18474850 @wangzhian8848 而你，我的朋友，才是真正的英雄

日本語

146

坏婆娘🇺🇸@ying18474850·21 Nis

@wangzhian8848 尺度最大的是麻豆

中文

659

62.4K

王局志安@wangzhian8848·21 Nis

王局拍案现在是全球华人言论尺度最大，最自由的平台。我可以周一批评习近平，周二批评赖清德，周三批评拜登，周四批评法轮功。像岸田，我都不稀罕批他。

中文

630

2.3K

705.1K

Neo! retweetledi

HIDEO_KOJIMA@HIDEO_KOJIMA_EN·23 Mar

I would really like you to read the original. For fans of the original, I might recommend the Tencent version.

HIDEO_KOJIMA@HIDEO_KOJIMA_EN

I've just finished watching through eight episodes of "3 Body Problem." The original novel by Liu Cixin is depicted on a grand scale and in a unique style. With a slow-paced introduction, the ensemble drama spins a timeless story with intersecting characters. Abstract and surrealistic images, like that of "a blink in space" and "a countdown reflected on the retina,” are very difficult to visualize. Though this is an invasion from outer space, it is much more complicated than simply showing a large mother ship flying into a big city, attacking, and defending against an army, in a similar fashion to films like director Emmerich’s. However, the way this has been incorporated into a drama series with a worldwide perspective is brilliant. David Benioff and D. B. Weiss have done a marvelous job. By replacing the setting, era, and characters, extracting and adding elements, upping the tempo to make it suitable for a tv series, and rhythmically arranging cutbacks and cliffhangers, they have sublimated this work into an entertainment for everyone – those who have read the original work and those who have not – while retaining the essence of the original. The show ends midway through the second book. I do not know if there will be a Season 2, but I am sure that more people will reread the original story after watching this, or they may be encouraged to read the rest of it. In any case, "The Three-Body Problem" is said to have been "read by all mankind.” Those who have not yet read it will be able to experience it through this drama. Especially for those who are tired of Hollywood blockbusters, this crazy, novel science fiction is sure to be a blast.

English

297

1.4K

13.1K

1.9M

Neo!@NeoCuriousCat·23 Mar

@safaricheung 这都哪来的消息啊

中文

319

safari@safaricheung·21 Mar

上海男同别说我没提醒你们。

中文

1.8K

581.9K

Neo!@NeoCuriousCat·21 Mar

@insultsrare Yeah, but why

English

star 💫@stxrinsky·19 Mar

😂

QME

1.6K

5.6K

151.6K

19.9M

Neo!@NeoCuriousCat·11 Mar

@PR0GRAMMERHUM0R Dumb, just dumb

English

Programmer Humor@PR0GRAMMERHUM0R·9 Mar

iWasLookingForThis reddit.com/r/programmerhu…

English

230

829

7.9K

644.9K

Neo!@NeoCuriousCat·25 Şub

@catmangox 什么玩意儿，因为gpu禁运

中文

猫总@catmangox·18 Şub

自从Sora发布，好像自2022年确立的一种科技大国自信瞬间崩盘了。如同当年文革狂热后那种看待西方的科技的好奇和恐惧，过去需要几十年才能产生的鸿沟在人工智能领域可能只要1-2年。所有人都在讨论到底是什么阻碍了国内人工智能的发展？为什么中国过去的经济、产业可以实现弯道超车，这几年被美国一制裁就原形毕露了？殊不知过去几十年我们只是吃了资本主义的救命药丸，但要命的是这几年我们把药停了。