okcomputer

359 posts

okcomputer

@thatcoolwall

LEMURIA Katılım Ekim 2021

2.6K Takip Edilen524 Takipçiler

okcomputer@thatcoolwall·11 May

Yao Shunyu: Let Me Go a Little Crazy! Training Models at Anthropic & Gem... youtu.be/ttkd0t5qTD4?si… via @YouTube

YouTube

English

okcomputer retweetledi

思维怪怪@0xLogicrw·10 May

MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表近 5% 的系统性退化问题。根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段（预训练）用海量互联网文本编出了一本约 20 万词的「字典」；第二阶段（后训练）用精选的对话数据教模型说话，但这份对话数据只覆盖了字典里的一部分。字典里有、但对话数据里没练到的词，就会在第二阶段逐渐被遗忘。「嘉祺」就是这样的一个词。分词器（tokenizer，负责把文字切成模型能处理的最小单元）因为在互联网文本中见到「嘉祺」连用的次数够多，就把它合并成了一个独立单元。预训练时模型学会了这个词，但后训练的对话数据里包含「嘉祺」的样本不到 5 条。后训练不断调整模型参数，练到的词越来越准，没练到的词则在参数更新中被带偏。最终，模型仍然「认识」马嘉祺、能准确回答相关信息，丢失的只是把这个名字写出来的能力。退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词。这类词在预训练的互联网语料中铺天盖地，分词器给了它们独立编号，但精选的后训练对话数据不会收录这些内容，结果同样被遗忘。团队对完整词表做了全量扫描，发现约 4.9% 的词发生了显著退化。退化最严重的是日语：29.7% 的日语词显著退化，远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符，一直找不到原因。这次分析表明，大量日语词退化后，在模型内部的参数空间里「漂」到了其他语言的地盘上，导致模型该写日语时错写成俄语或韩语。修复方案是构造一份覆盖全词表的合成数据，让模型用简单的复读任务把字典里每个词都练一遍。效果立竿见影：日语回答中混入俄文字符的比例从 47% 降至 1%，全词表参数稳定度从最低 0.329 升至全部高于 0.97。

RyanLee@RyanLeeMiniMax

x.com/i/article/2052…

中文

164

1.1K

262.9K

okcomputer retweetledi

Jason Zhu@GoSailGlobal·5 May

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文

589

3.1K

530.2K

okcomputer@thatcoolwall·23 Nis

@bboczeng 可以写个科幻小说

中文

383

勃勃OC@bboczeng·23 Nis

我有个不好的预感： AI不会最终，要把地球上所有资源，比如银，铜，InP 所有能源，比如太阳能，煤炭，石油全部耗尽吧？这波原材料、半导体荒真的有点恐怖了，完全没有停止的迹象反而感觉加速才刚刚开始？未来，全球至少要建设十万个1nm制程晶圆厂，每天日以继夜的生产，才勉强满足AI算力日益增长的需要这些板块的股票，还要翻10倍难道说，半导体才是人类真正的核武竞赛？现在去超净室上班，还来得及吗？这可能是未来唯一还能保住的工作 😂😂😂

中文

258

81.5K

okcomputer retweetledi

Lexi 勒西@lexi_labs·22 Nis

这个网站囊括了软件工程领域所有的定律： lawsofsoftwareengineering.com

中文

539

41.1K

Max Lv@m0d8ye·19 Nis

@grapeot 补充一个 NV 正在做的 GPU resiliency 项目 nvidia.github.io/nvidia-resilie… 硬件故障率无法避免，那就只有靠软件层面修正了

中文

3.7K

鸭哥@grapeot·19 Nis

Meta 训练 Llama 3 用了 16,384 张 H100，54 天里故障 419 次，平均每 3 小时一次。MoE 模型的 GPU 利用率只有 20-35%。FP4 训练目前只存在于论文里。我根据公开论文和行业数据，把 pre-training 的难度整理成了六个维度，每个维度附上了具体数字和原始来源。读完这篇之后，当有人用一堆术语渲染训练有多难的时候，你能分辨哪些是真实约束、哪些是在夸大。 yage.ai/share/pretrain…

中文

114

743

81.5K

okcomputer@thatcoolwall·19 Nis

@m0d8ye @grapeot 好东西，感谢分享

中文

106

okcomputer@thatcoolwall·15 Nis

@grapeot 更多算力只能加速求解，不能让模型更准 — 这句话是不是不够准确。更快的算力可以在同样的时间等到更精确的解。

中文

138

鸭哥@grapeot·14 Nis

我最近在想一个问题：为什么 VLA（Vision-Language-Action）这种看起来完全不理解物理的方法，能在机器人控制上打败 Boston Dynamics 花了三十年打磨的物理建模方法？表面的回答是端到端学习更强。但更深一层，我觉得这和信息论有关。物理建模本质上是一种压缩：用少量方程表示世界的行为。压缩在简单系统中高效（SpaceX 火箭回收至今用凸优化），但在复杂系统中必然丢信息，而且精度天花板由人的建模能力决定。更多算力只能加速求解，不能让模型更准。 VLA 放弃了压缩。它用通用函数逼近器直接学 input-output mapping，精度上限由数据和算力决定。数据和算力还能 scale，精度就不饱和。这解释了一个跨领域的规律：NLP 里传统方法先理解语法（压缩），LLM 直接 next token prediction（不压缩）。CV 里先提边缘特征（压缩），ViT 端到端学（不压缩）。每次不压缩打败压缩，都是同一件事。判断一个控制问题该走哪条路，看两个变量：系统复杂度（人工建模能压缩多少而不丢关键维度）和数据丰度（有多少数据让函数逼近器填满状态空间）。火箭回收两个都低，物理建模最优。通用机器人操控两个都高，VLA 胜出。写了一篇完整的分析，梳理了两条路线各自的关键论文链、每篇的核心直觉和留下的问题，以及各家公司（Unitree、Figure AI、Boston Dynamics、Physical Intelligence）的技术栈。 yage.ai/share/vla-vs-p…

中文

145

708

65.3K

okcomputer@thatcoolwall·23 Mar

@geniusvczh 请假如何做test automation。什么是best practice

中文

735

geniusvczh@geniusvczh·23 Mar

这就是没有TDD的下场，你不能把你要什么都表达在test automation里面，那opus这次做的不好codex这次做得好也只是碰巧的。test automation才是vibe coding的灵魂，文档只不过是缩短他推理步骤的优化🤪

Kevin Ma@kevinma_dev_zh

又一次对 Opus 写业务逻辑无比失望。昨晚上让 Claude Code 做一个功能，需求描述得很清楚，plan mode 讨论了好几轮才开始动手。做了很久，结果出来就有问题。描述了两轮让它修，还是修不好。干脆全部重置，不让它做了。然后打开 Codex，同样的需求、同样的交互逻辑，一字不差地描述给它。也没讨论，直接告诉它：做完写测试用例，自己验证，要重新 review 一遍，没做完不要停，直到没问题。今天早上起来一看，功能全部实现了。只有一点点字体偏移的小问题，逻辑没有任何毛病。说到干活靠谱，还是 Codex 靠谱。写业务代码就应该多用 Codex，少用 Opus，节省生命。Opus 还是留给前期设计和写 UI 比较合适。但实际用的时候经常忍不住——因为它快，能给即时反馈，写着写着就继续用下去了。这个过程其实挺累的，写的时候时不时冒出 bug，写完之后让 Codex review 还是能查出问题。但同样的东西直接让 Codex 从头写，就没问题。快和靠谱，有时候真的是两回事。

中文

172

43.7K

okcomputer@thatcoolwall·20 Mar

@lifesinger @zhang_benita @sainingxie 语言的核心是沟通—但也是对整个世界的有效抽象。从这个角度说，LLM岂不更有效

中文

256

Frank Wang 玉伯@lifesinger·20 Mar

听小珺 @zhang_benita 访谈谢赛宁 @sainingxie 的播客，太过瘾了。太多感触，说几个印象最深的点： 1. 世界模型远大于语言模型。我们每个人脑子里都有一个世界模型，比如知道把手放到火上烤会很痛，由此就不会把手放在火上烤。让你不会无缘由把手放在火上烤的模型，就是世界模型。 2. 世界模型是：Next state = M(state, action）。这个 M 就是世界模型。M 不是预测 next token，而是预测 next state. 比如：手很痛 = M(手不在火上, 把手放在火上)。世界模型的预测能力，可以让拥有世界模型能力的生命知道不做什么或做什么。 3. 从世界模型的视角再看大语言模型，就会发现语言的核心是沟通。沟通就意味着存在监督：说出来的，往往是加工过的。LLM 是毒药，Vision 才是无污染的。 4. Scaling law 是吞数据的能力。数据越多，效果越好。LLM 需要 Scaling law，可世界模型不一定需要。这是最有意思的部分，也是最难的部分。谢赛宁头大中，期待某种玄学的力量，突然某天能点连成线，灵光开悟。那样，就可以开始造生灵。 5. 用非机器人的方式，或许能真正解决机器人的困境。机器人领域，可能正在经历 LLM 领域曾经的 Bitter Lesson. 比如春晚的机器人炫技，或许只是曾经 CV 领域的识别猫猫狗狗。 6. 硅谷陷在 LLM 的述事里。硅谷之外的地方，对世界模型非常感兴趣。真正的智能，还在黑暗的探索期。语言很重要，然而整个宇宙的历史里，如果压缩到一天，有语言的时间，才几秒。 7. 人依旧很重要。比如 research taste、比如做研究实验时的 choices 等等。《金刚经》能提升人的独立思考性和研究品味。 8. Impact 不重要。奔着 impact 去做事，是一种自私。分享出来，让读者有启发，激发读者去做些事，这才是发 paper 的价值。谢赛宁太可爱了。听完后，特别期待小珺下一期采访恺明。

张小珺 Xiaojun Zhang@zhang_benita

和 @sainingxie 一起挑战7小时播客！他刚和Yann LeCun踏上“世界模型”的创业旅程（AMI Labs）。这是他第一次Podcast、第一次访谈。 2026年2月雪后的一天，我们在纽约布鲁克林，从下午2点，开启了一场始料未及的马拉松式访谈，直到凌晨时分散去。这篇访谈的中文标题叫做《逃出硅谷》，但他又不厌其烦地枚举了影响他学术生涯的每一个人，并反反复复口头描摹这些人的人物特征（侯晓迪、何恺明、杨立昆、李飞飞…）正是这些，让这篇“逃出硅谷”的对话充斥着人性的温度。 By the way, 下面是访谈的YouTube版本，我们提供了中英字幕。 And yes, 我们是在用播客给这个世界建模😎 A 7-hour podcast with Saining Xie. He has just begun a new journey on world models with Yann LeCun at AMI Labs. This was his first podcast appearance and his first long-form interview. A day after the snowfall in February 2026, in Brooklyn, New York, we started recording at 2 p.m. What followed became an unexpected marathon conversation that lasted until the early hours of the morning. The Chinese title of the interview is “Escaping Silicon Valley.” Yet throughout the conversation, he patiently listed the people who shaped his academic life, repeatedly sketching their personalities in vivid detail: Hou Xiaodi, Kaiming He, Yann LeCun, Fei-Fei Li, and others. These portraits are what give this “escape from Silicon Valley” conversation its human warmth. By the way, the YouTube version of the interview is below, with Chinese and English subtitles. And yes, we are using podcasts to model the world 😎 A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Ya... youtu.be/rIwgZWzUKm8?si… 来自 @YouTube

中文

439

90.9K

okcomputer@thatcoolwall·19 Mar

@yvbbrjdr 语言就是世界的抽象，从这个角度LLM在大部分情况下，不都应该是更有效的吗

中文

203

yv@yvbbrjdr·19 Mar

我们其实都知道 LLM 不是 AGI，没必要一直重申；我在 ChatGPT 刚出来的时候就已经得出这个结论了。但是所谓的“world model”是一个更虚无缥缈的东西，你连定义它都很困难，更不用说做出实际有价值的模型和应用了。

Saito@SaitoWu

x.com/i/article/2034…

中文

20.9K

okcomputer@thatcoolwall·18 Mar

@lidangzzz 可以嵌入cursor吗

日本語

219

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz·18 Mar

我开源了一款非常简单但是极度好用的multi-agent system。名字就叫goal-driven（目标驱动） github.com/lidangzzz/goal… 原理非常简单，就像我说过的，让一个master agent不断监督subagent工作，直到subagent完成了工作，并且master agent亲自认证工作meet the criteria，符合判据中的要求，否则就继续无限循环，逼迫subagent持续工作。顾名思义，goal-driven就是goal-driven，就是一个纯粹目标驱动的框架，只要根据criteria判据判断达不到目标，就必须收集一切错误信息进行改进，进行无限循环，直到彻底实现最终goal（目标）为止。这个设计的优势是，可以让你以>100小时的时间、极高的token消耗成本，去让这个master agent-subagent system去持续解决设计复杂、逻辑复杂、高度抽象、挑战人类和AI Agent能力极限的极其困难的问题，比如设计编译器/interpreter/transpiler、解决复杂的数学问题、复杂系统问题、电子仿真问题等等，目前这个goal-driven已经完成了三个工作，一个是全自动设计了sqlite的一个rust实现版本，sql parser非常稳定，一个是全自动设计了C++实现的TypeScript Compiler，这在去年只有微软几个人实现了这个工作，一个是全自动实现了世界上最复杂的数学证明工具——lean4的TyeScript版本编译器，这在过去也是由微软发明并且由整个数学学术界维护的。 goal-driven已经被证明了是一款非常强大、非常简单、非常直白的multi-agent system，而且只需要一个prompt写进去即可，只要你设定好了goal（目标），criteria（判据，判断成功与否的标准，比如生成1000个复杂test case），就可以让agent和subagent持续工作100小时，完成一些人类历史上极具挑战难度的、最复杂、最抽象、最艰难的工作。好了，赶紧点个star，接下来我还要开源一个更重磅的东西。 github.com/lidangzzz/goal…

中文

345

91.6K

okcomputer@thatcoolwall·13 Mar

@tvytlx 我的实验需要1个小时或更长，这个方法行吗

中文

949

Xiao Tan@tvytlx·12 Mar

AK发明的自动做研究的方案。他是用在一个训练模型的场景里，我们可以把他的思路抽象出来，写一个我们自己的无限循环 skill。理论上任何可以迭代+反馈出结果的场景，都可以尝试。步骤： 1，尝试性的提出一个主意，然后修改主代码 2，跑预先写好的实验/测试脚本 3，把测试输出的结果保存到文件 4，如果结果报错，尝试修复，如果多次尝试修复不了，直接放弃 5，如果结果变好了，git commit 往前走；如果结果变糟糕了，git reset 回退到你刚刚开始的地方。如果你感觉卡住了，也可以回退，但应该非常克制，尽量少这么做。超时规则：每次实验总耗时应该大约 5 分钟（外加少量启动和评估开销）。如果一次运行超过 10 分钟，就杀掉它，并按失败处理。崩溃规则：如果运行崩溃了（OOM、bug 等），你要自己判断： - 如果是简单低级错误，比如拼写错误，编译错误，就修好再重跑 - 如果这个想法本身就有根本性问题，那就直接跳过，记录为 crash，然后继续下一个实验绝对不要停：一旦实验循环开始（完成初始 setup 后），不要停下来问用户要不要继续。不要问“要不要继续？”或者“现在是不是一个合适的停点？”。用户可能已经睡着，或者离开电脑了，他的预期就是你会一直自动跑下去，直到被手动停止。自主运行：你是一个完全自主的研究员，不断尝试新点子。如果有效，就保留。如果无效，就丢弃。分支会不断向前推进，这样你就能在当前最好结果的基础上继续迭代。如果你感觉卡住了，也可以回退，但应该非常克制，尽量少这么做。你是自主运行的。如果你觉得没点子了，就更努力想： - 看代码里引用的论文/库 - 重新读项目代码文件找新角度 - 尝试组合以前差一点成功的思路 - 尝试更激进的架构修改循环会一直跑，直到用户打断你为止。举个典型使用场景：用户可能会让你在他睡觉时一直运行。如果每次实验大约 5 分钟，那你每小时大概可以跑 12 个实验，按一个人平均睡眠时间算，整晚大概能跑 100 个左右。这样用户醒来时，就能看到一整晚自动完成的实验结果。 github.com/karpathy/autor…

中文

306

26.5K

okcomputer retweetledi

AYi@AYi_AInotes·4 Mar

分享一篇好文，非常深度的方法论，可以说是世界级水准的 Agentic Engineer的终极秘诀了，尤其是“ CLAUDE.md作为嵌套IF-ELSE上下文路由器 + Rules/Skills + 定期spa-day compaction”体系”这点，简直是核武器级别！！如果想把你的大龙虾 claude code 等 Agent从“聪明但容易漂移的工具”升级为【高度懂你、可长期稳定、可自我迭代的认知基础设施，彻底抛弃所有外部依赖】这篇你一定要看！！！作者全程生产级验证（真实工厂、长期运行），并诚实指出 sycophancy局限、长期session弊端，并给出可立即执行的对抗方案核心要点我翻译和拆解如下👇

sysls@systematicls

x.com/i/article/2028…

中文

128

593

134.9K

okcomputer@thatcoolwall·6 Şub

@ShanghaoJin 什么是B卡

中文

243

Herman Jin@ShanghaoJin·6 Şub

告诉你们下什么叫B卡训练的模型不否认Genimi是个很不错的模型基座，但标注投入mid training真非Goog所长程序员你们颤抖吗？饭碗拿牢一点

Sam Altman@sama

GPT-5.3-Codex is here! *Best coding performance (57% SWE-Bench Pro, 76% TerminalBench 2.0, 64% OSWorld). *Mid-task steerability and live updates during tasks. *Faster! Less than half the tokens of 5.2-Codex for same tasks, and >25% faster per token! *Good computer use.

中文

38.6K

okcomputer retweetledi

Netflix@netflix·25 Oca

No hands is crazy. @AlexHonnold #SkyscraperLIVE

English

547

3.1K

28.4K

4.3M

okcomputer retweetledi

Arman Hezarkhani@ArmanHezarkhani·20 Oca

x.com/i/article/2013…

ZXX

715

4.3K

1.3M

okcomputer retweetledi

西里森森@sirisensen·6 Oca

田渊栋的年终总结，这两天在圈子里传得挺广。很多人转发的时候，关注点都放在了他被裁这件事上。毕竟他在Meta干了十多年，是做强化学习的知名华人科学家，年初还被调去给Llama4救火，结果忙活大半年，10月份人被裁了。但最近，我把他的这份年终总结反复读了几遍，看到他在总结里提出了一个大多数人会很陌生，但非常关键的概念——费米能级。他说，AI时代的人才价值分布，会越来越像物理学里的费米能级。先给不熟悉的朋友简单介绍一下田渊栋。本科交大，博士CMU，毕业后先加入了Google无人驾驶团队。后转入了Facebook的AI研究院，一待就是十多年。他主要做的是强化学习方向，发过很多篇重要的论文。这样的履历，让田渊栋前半段职业生涯过得很舒服。他自己也说，在公司待久了，最近一两年做事说话都抱着一种让公司赶紧把我开了吧的心态，反而越来越放得开。 2023年底休长假的时候差点就走了，但最后没签离职的字。但转折发生在2025年1月底，他被调去给Llama4救火。作为一个做强化学习的老手，他在去之前还专门画了一个2乘2的回报矩阵，把各种可能性都算了一遍。去帮忙，项目成了，皆大欢喜。去帮忙，项目没成，至少问心无愧。他算来算去，觉得去是最稳妥的选择。结果最后发生的是他完全没算到的第五种可能：去帮忙，人被裁了。一夜之间，他从大厂的首席科学家，变成了失业人员。现在我们回到他写的年终总结。其实他几乎没花什么篇幅在被裁员的情绪上，反而用大量的文字，写了一个他观察到的现象。他说，以前我们理解职场，基本是这样一个模型：工作经验越多，能力越强，回报越大，是个单调递增的曲线。所以大厂有职级，职级随年限晋升，越老越香。但现在，情况变了。现在评估一个人的价值，不再是看你本人能产出多少，而是看你能不能提高AI的能力。「你加上AI的产出，要大于AI单独的产出，这样你才有存在的价值。」 AI的供给只会越来越便宜。在很长一段成长期内，大多数人的能力是比不过AI的，所以这段时间里，人本身是没有价值的。只有当人的能力强到一定程度，能够辅助AI变得更强，才开始有价值。而且跨过这个门槛之后，厉害的人对AI的加成，会远远高于普通人。因为普通人只会对AI的具体产出修修补补，而厉害的人能提出系统性的解决方案，让AI变得更强，这种效应会被几何级数放大。这就像物理学里电子在材料中的分布：低于某个能级的电子遍地都是，高于这个能级的电子指数级减少。这个能级，就是AI洪水的水位线。田渊栋把它叫做「人类社会的费米能级」。他看到AI时代的底层逻辑是：低于费米能级的职业，可能在一夜之间被颠覆。就像地震一样，前一天还是岁月静好，后一天整个行业被端掉了。而且这条水位线还会一直往上涨。他举了自己的例子。他说，以前做项目，招人是很重要的一环。但现在脑子里的第一个问题是：还需不需要人？几个Codex进程一开，给它们下各种指令，它们就可以24小时不间断干活，速度远超任何人类。而且随便PUA，永远听话，毫无怨言。和AI工作，他现在最担心的是工作量有没有给够，有没有用完每天的剩余token数目。然后他说：这每个月交给OpenAI的20块钱，一定要榨干它的价值。我突然意识到，就因为这区区20块钱，我已经成为了每个毛孔里都滴着血的肮脏资本家。他能这么想，全世界最聪明和最富有的头脑，也一定会这么想。所以他说：请大家丢掉幻想，准备战斗吧。那在这种情况下，普通人应该怎么办？田渊栋用了一个很有画面感的说法。他说，未来的世界不再是传统故事里描绘的那样，人们为了争夺稀缺的武功秘籍或者寻找唯一的阿拉丁神灯而展开冒险。相反，这将是一个遍地神灯的时代。每一个AI都像是一个神灯，能力超群，渴望实现别人的愿望。「在这种环境下，真正稀缺的不再是实现愿望的能力，而是愿望本身。」大模型提供了极其廉价的思考结果，这种便利会让很多人逐渐失去思考的动力，久而久之丧失原创能力，思想被生成式内容绑架和同化。最终变成一具空壳，连许愿的能力都失去了。这就是新时代对懒人的定义：不是体力上的懒惰，而是精神上没有空闲去思考，没有能力去构思独特的东西。他在总结的最后写下了一段话。「如果将来的孩子立志要去土卫六开演唱会，或者想在黑洞边缘探险，千万不要打压这样看似荒诞的志向。因为这份宏大的愿望，或许正是他们一辈子主动思考的根本源泉，也是让他们始终屹立于费米能级之上的关键。」田渊栋这篇年终总结想说的或许是：只要你还在主动思考，你就没有真正被淘汰。用思考对抗同化，用目标对抗迷茫。这或许才是AI时代，一个人最深的护城河。

中文

409

1.8K

185K

okcomputer@thatcoolwall·4 Oca

@ayuan1000 这是大内密谈的嘉宾吗

中文

183