Jason Chiang
303 posts






Simon Willison 这位 Django 框架的核心开发者、LLM 领域最勤奋的独立博主,每年年底都会写一篇万字长文回顾 AI 这一年。今年是第三年。 原文 simonwillison.net/2025/Dec/31/th… 很长,我从他的年度总结中围绕 1. 2025 年 AI 最关键的技术突破是什么? 2. 哪些产品让你眼前一亮? 3. 2026 年什么趋势不可忽视? 这三个问题整理了部分内容。 【1】2025 最关键的突破:推理模型让 Agent 真正能干活了 年初 Simon 还在博客里预言“Agent 不会成功”——因为 LLM 太容易被骗了,你让它帮你干活,它可能被恶意指令带偏。 结果年底他的总结推翻了自己的语言,转折点是“推理模型”。OpenAI 的 o1、DeepSeek R1、后来各家跟进的各种“thinking”模型,让 AI 学会了“慢思考”。传统模型是看到问题就直接输出答案,推理模型会先在内部进行一连串的思考——分解问题、尝试方案、检查结果、调整方向,然后才给出答案。 通过让模型在数学和编程这类“可以自动验证对错”的任务上训练,模型自己学会了分步骤解决问题的策略。这看起来像“推理”,但本质上是训练出来的解题套路。 一个能推理的模型,配上能执行代码的沙盒,就变成了一个真正能干活的 Agent——它可以写代码、跑代码、看报错、再改代码,循环往复直到搞定。Simon 说,哪怕是最棘手的 bug,只要给一个好的推理模型足够的代码访问权限,它通常都能一路追溯到问题根源。 AI 搜索也因此从“玩具”变成了“真能用”。以前让 LLM 搜东西,结果经常驴唇不对马嘴。现在的 GPT-5 Thinking 或者 Google 的 AI Mode,可以像一个靠谱的研究助理一样帮你搜集资料、整理要点。 【2】眼前一亮的产品:编程 Agent 和消费级图片编辑 今年最炸裂的产品发布,发生在二月,而且低调到没有独立公告——Anthropic 把 Claude Code 的发布塞在了 Claude 3.7 Sonnet 的新闻稿第二段。 结果呢?到年底,这个命令行工具创造了 10 亿美元的年化收入。一个 CLI 工具,十亿美金。Simon 自己都感叹:早知道当初应该把自己的 LLM 命令行工具当主业搞。 各大厂随后疯狂跟进:OpenAI 出了 Codex CLI,Google 出了 Gemini CLI,Qwen 和 Mistral 也都下场。还有一类“异步编程 Agent”——Claude Code for Web、Codex Cloud、Google Jules——你扔个任务给它,它在云端默默干活,干完了给你提个 PR。Simon 说他现在经常在手机上随手发几个任务,几分钟后收 PR,很爽。 消费级的爆款是 ChatGPT 的图片编辑。三月上线,一周涨了一亿用户,峰值时一小时一百万注册。“吉卜力化”之类的玩法病毒式传播。图片编辑可能是目前 AI 触达普通人最成功的形态。 Google 的 Nano Banana 系列则走专业路线——它能生成带复杂文字的信息图、图表、演示材料,而且文字渲染准确。这对做内容、做汇报的人来说是真正的生产力。 【3】2026 不可忽视的趋势 第一个:中国开源模型已经占据榜首。 年底的开放权重模型排行榜,前五名全是中国公司——GLM、Kimi K2、MiMo、DeepSeek V3.2、MiniMax。DeepSeek R1 发布那天,NVIDIA 市值一天蒸发 6000 亿美元。投资人突然意识到:AI 可能不是美国独占的游戏。 第二个:安全问题的“挑战者号时刻”在逼近。 很多人用 YOLO 模式跑 Agent——不审核每一步操作,让它放飞自我。目前还没出大事,但安全研究者 Johann Rehberger 警告:这正是危险所在。1986 年挑战者号爆炸前,NASA 的工程师早就知道 O 型圈有问题,但成功发射太多次,大家都麻了。AI 安全领域正在经历同样的“风险正常化”。 第三个:Conformance suite 可能是下一个基础设施。 Simon 发现,现在的编程 Agent 在有测试套件可跑的情况下效果惊人——给它一套现成的规范测试,它能自动迭代直到全部通过。他建议:如果你明年要推新协议、新语言、新框架,一定要配一套语言无关的测试集。这可能是 AI 时代新技术获得采用的关键。 【最后】 Simon 在文章里提了一句:他今年用手机写的代码比电脑还多。在 Claude Opus 4.5 和异步 Agent 的加持下,他在 iPhone 上完成了一个 C 到 Python 的库移植项目。 特别认同 Simon 的一句话: “你的工作是交付经过验证可用的代码”。不管是你自己敲的,还是 AI 帮你生成的。

翻译: > 我,Meta LLaMA 开发人员,2025年。 > 刚用12万张H100把LLaMA 4“独行侠”给“训完”了。 > 成本比扎克伯格那整个夏威夷地堡群都贵。 > 当时心里想着:这下总算能把国内那帮开源装逼犯按在地上摩擦了。 > 就在这时,推特上一个哥们@teortaxesTex发了个链接,一篇来自“深求(DeepSeek)”的论文。 > 杭州来的一帮人。 > 他们的模型,代号“R1”,直接霸榜了。 > 我当时还“呵呵”,心想:估计又是什么刷榜的过拟合垃圾吧。 > 突然,老板冲进我们码农格子间,脸比纸还白。 > “他们用2000张GPU就搞出来了?!” > 我整个人都傻了。他们的论文里写着,R1的训练算力只是我们的零头。 > 他们的模型架构是某种我们想都不敢想的天顶星人级别的骚操作。 > 公司里彻底炸锅了,一片恐慌。 > 有人看见扎克伯格的个人机器人化身正杀气腾腾地冲向战争指挥室。 > 隔着门都能听到里面的咆哮: > “12万张GPU!结果被一个拿着计算器的巨鲸给办了?!” > 整个项目被推迟到明年四月。对外宣称是“为了做更多对齐。”—— 呵呵,懂的都懂,其实就是抄他们作业。 > 好不容易发布了LLaMA 4“独行侠”。 > 结果就是个DeepSeek V3的垃圾复刻版,塞了个“继母(StepMom)”的魔改prompt。 > 彻底拉了。 > 走投无路的产品经理想出了一个“绝妙”的主意: > “咱们就专门针对LMARENA竞技场搞个特供版过拟合!” > 结果秒被抓包。 > 整个“Llama”团队被一锅端。HR搬着纸箱子忙得不可开交,全员“毕业”。 > 扎克伯格在一次元宇宙全员大会上,说了那句经典台词:“是时候加倍下注了。” > 宣布成立“Meta超级智能实验室”(MSL)。 > 计划很简单:就是砸钱买成功。 > 他打电话给Ilya Sutskever。“我想买你的SSI公司。” > Ilya直接笑出声,然后挂了电话。 > 他又打给Thinky Machine的Mira Murati。 > 她说:“我们不卖,不过我们的API可以给你们的下一款产品用。” > 简直是公开处刑,杀人诛心。 > 想挖奥特曼的副手大将,结果只搞来了个给他擦屁股的。 > 最后花了150亿美元从Alexandr Wang手里买下了Scale AI。 > 那个靠在东南亚开数据标注血汗工厂闻名的家伙,现在成了我们的AI研究负责人。 > 他开始像撒币一样给每个还喘气的AI研究员砸钱。 > 开出1亿美金的合同包,对“超级巨星”更是开价10亿。 > 几个毫无道德底线、还欠了一屁股赌债的雇佣兵签了合同。 > 团队总算是凑得半死不活、看着还行了。 > 但Wang只懂得管理奴工,根本管不了这帮AGI研究员。 > 实验室里各种巨婴、自大狂天天内斗。 > 一个研究员威胁说,除非让他当“首席科学家”——一个他自己当场发明的头衔——否则就走人。 > 另一个偷偷录下了Wang对着Sam的照片打胶的视频,以此要挟得到了一个副总裁的职位。 > 这个MSL,就是一个价值十亿美金、还在熊熊燃烧的小丑车,由一群都想抢方向盘的自大狂驾驶着。 > 扎克伯格独自待在他的地堡里,看着Facebook当年IPO的VR回放,哭了。 > 我们曾拥有12万张H100……结果被一个来自西湖边上的哥们给完爆了。 (配图与本文无关)








@Cydiar404 我主要是以为这个o1 pro的代码能力起码很多程序员会当成重要生产力工具



最近試用了ChatGPT Advanced voice model, 非常驚豔 然後試用了ChatGPT 4o-canvas, 一開始期待滿滿, 然後就受傷滿滿... 主要的殘念是: 1. 大約250~300行程式碼後, 就會無法完整輸出的問題反覆出現 2. 多個檔案的時候, 常常會改錯檔案, 然後就會鬼打牆找不到它想要改的檔案... 由於這兩個致命的缺陷, 還遠遠不如交給4o或o1-preivew


OpenAI released o3-mini through their think button


看到这张图,很好地解释了用AI编程快速开发的利弊



