eraera
2K posts

eraera
@eraera
A blackbox is a network of blackboxes, the world is one such blackbox.

公司有个采购是真狠。 领导让他三天内搞定一批急用设备, 为了赶进度,他连夜联系供应商, 请人吃饭、送样品、跑仓库,最后总算把事情办成了。 结果回公司报销时, 财务一句话: “打车费超标,夜宵不给报,加急费用不符合流程。” 一共卡下来两千多,他一句没吵。 第二天,供应商来公司准备签长期合作, 他当着对方的面笑着说: “以后你们报价记得往高了报,我们公司流程比较复杂,很多费用员工得自己垫。” 供应商当场愣住。 原本谈好的低价合作, 当天直接涨了15%。 老板后来知道这句话是他说的, 气得差点拍桌子。 但最扎心的是, 他说的其实全是真话。

@manateelazycat 老板,开播客讲讲那段岁月

人和人认知的差距,本质是思维阶数的差距。 只有一阶思维的人,看到什么就信什么,听到什么就传什么。这是大多数普通人的状态,他们一辈子都活在别人给的叙事里。 有二阶思维的人,会追问一句"为什么"。他们能看到表象背后的机制、利益和动机。这类人通常是知识分子,能写文章、能分析问题、能在饭桌上让人觉得"有点东西"。 而真正的智者和哲学家,拥有三阶、甚至四阶思维。他们不仅能看穿机制,还能反思自己看穿机制的这个过程本身——自己的立场是怎么形成的,自己的认知有什么盲区,人类的理性本身又有什么边界。 阶数越高,世界越复杂,但人也越自由。 绝大多数人终其一生卡在第一阶,连第二阶的门都没摸到。

你看基督山伯爵,其实就是个爽文框架,被冤枉的人,获得超现实级别的资源,然后回来让所有害过他的人一个个付出代价。肖申克的救赎其实也是。


今天讨论点硬核的。一个问题:AI用到了什么程度的数学? 从工具和模型本身看,AI用到的数学平均年龄150岁,绝大部分是19世纪中叶之前就有的:矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率,大都是本科前两年的内容。 但AI涌现出的一些现象,目前最高深的数学都解释不了。我整理了几个排名靠前的: - Scaling Law:把模型做大、数据加多、算力堆够,模型的损失会沿着一条极其干净的幂律曲线下降,log-log 图上几乎是一条直线。一个有几千亿参数、内部高度非线性的庞然大物,宏观行为竟然如此有规律。为什么会这么规则,没人知道。 - Emergent Abilities:三位数加法、多步推理、写代码这些能力,小模型几乎无能为力,但是模型参数量越过某个阈值,模型变得足够大,模型突然就都会了。这在物理上和水变成水蒸气是同一类现象——相变。但水的相变有完整理论,AI 的“能力相变”什么模型都没有, - Double Descent:传统的统计学习理论告诉我们:模型越大越容易过拟合,测试误差应该先降后升。实际观察到的误差曲线是:先降、再升、然后继续往下降,最终掉到比经典理论的最优点更低的位置。一整套统计学习理论被大模型颠覆,为什么?没有公认解释。 - In-Context Learning:GPT-3之后出现的新现象。给模型几个例子,它不更新任何参数就能完成新任务。按理说"学习"必须改变参数,可大模型在推理过程中能现学现用。这意味着模型内部藏着某种我们看不见的"学习的学习"。数学上这是什么?也没人能说清楚。 - Representation Geometry:模型内部到底学到了什么?A社的可解释性研究发现了一个奇怪的现象:单个神经元同时编码了好几个互不相关的概念,比如同一个神经元既对"金门大桥"有反应,也对"日语"有反应,还对"DNA 序列"有反应。按理说一个维度只能表达一件事,但神经网络似乎找到了某种"叠加"技巧,在有限的维度里塞进了远超维度数的特征。 为什么会这样?没有数学能解释。 类比一下物理,十九世纪末的物理学主要靠微积分就够用了。但当时天空中飘着几朵"乌云":黑体辐射、光速实验,当时的理论解释不了。这几朵乌云后来炸出了量子力学和相对论,逼出了20世纪最新的数学(泛函分析、微分几何、数学结构化)。 AI现在的处境很像1900年的物理学:工具老得不能再老,结果好得超出预期,但留下了一堆解释不了的现象,现有的数学工具完全无能为力。 如果历史会押韵,这些“AI的乌云”很可能正是21世纪数学下一次大发展的引爆点。


彼得·蒂尔表示,当他在 2008 年投资马斯克的 SpaceX 时,人们发邮件给他,庆幸自己没有投资 Founders Fund ,因为“任何投资像火箭这种疯狂事物的人,都不该涉足风险投资”。 “伟大的投资表面上看似疯狂,但实则不然。”
















