小盖

14 posts

小盖 banner
小盖

小盖

@xiaogaifun

做有意思的事情。

Katılım Şubat 2026
73 Takip Edilen872 Takipçiler
小盖
小盖@xiaogaifun·
人形机器人,离成熟越来越近了。 人形机器人离成熟越来越近了。我看到机器人创业公司智平方,发布了第一个类人脑架构的具身大模型,真心感觉机器人离真正能上手干活帮我们洗衣做饭的那一步越来越近了。 类人脑的模型绝对是一个重要的里程碑。 要理解这事的重要性,咱们得往回倒腾倒腾,这些年机器人行业模型的迭代思路。 早之前的传统机器人,好多模块是拼凑起来的。视觉模块负责识别,规划模块负责路径,控制模块负责执行,分模块各干各的。 这跟早期 NLP 的思路一样,翻译是一个模型,分类是一个模型,搜索是一个模型。 后来大模型来了,大家就特别兴奋,因为大模型可以一统江山。 于是从业者就开始想,既然大模型已经能统一语言、视觉和推理,那是不是也能顺便把机器人的控制系统统一了?把视觉、语言、动作全部塞到一个统一的大模型里,这就是经常提到的 VLA 模型。 这套思路听起来很合理,既然一个大模型能搞定那么多事,那为什么不让机器人也在一个大模型里直接完成从思考到执行的全链路? 比如我们跟机器人说,把这杯水倒到那个杯子里。摄像头拍下画面,大模型理解场景,然后进行推理,最后输出机械臂的执行动作,整个链路是统一的。 这个方向非常性感。所以,前几年的思路是,只要 VLA 模型变得越来越聪明,机器人一定可以执行得越来越好。 但慢慢就发现问题了。VLA 在理解任务上确实越来越强,可一进入真实世界,漏洞百出。 大家肯定在视频中见过,机器人拿东西手在抖,动作不稳,碰撞之后也不会闪躲,非常僵硬。我相信大家只要看过过去的人形机器人,都会有这种感觉。 为什么会这样?因为大模型擅长的是低频、抽象、语义层面的思考。但机器人的世界是高频的、连续的、实时的、物理的。 还是拿倒水举例子。VLA 的思路是,机器人拍下画面,模型理解当前场景,再决定机械臂下一步动作。 但现实里头的倒水比这复杂多了,水在杯子里晃,重量和重心一直在变,机械臂自己也有微小的震动,光线一变摄像头识别还会有偏差。这些变化是高频的、连续的,眨个眼就过去好几轮。 可 VLA 这边呢,视觉帧率有限,模型推理慢,还得一个 Token 一个 Token 往外吐,整体反应不过来。 最后的结果就是,大脑知道自己在倒水,但身体根本跟不上。虽然很多 VLA 也会接入关节状态和传感器数据,但整个架构依然是视觉和统一推理中心主导。 这就好比我们刚学骑自行车的时候,理论上是知道怎么骑的,视频教程也看了不少,但身体的平衡就是控制不住。机器人现在的情况就是这样,VLA 层面知道该怎么做,可身体跟不上。 那为什么人倒水不会洒?因为靠的是大脑、小脑和脊髓的分工。大脑只负责一件事,我要把这杯水倒进那个杯子。 手怎么伸、怎么握杯、力度怎么调整,这些根本不用大脑操心,全是小脑在毫秒级做微调。 就像要是水突然溢出来烫到手,我会本能地一把缩回去,这个反射根本来不及经过大脑,是脊髓直接搞定的。 可过去的 VLA,是想让一个统一的大脑兼任所有事情,整体决断、平衡系统、肌肉控制器、应急系统全归它管。 结果就是又慢又不稳,不利索。说到底,核心问题就是机器人缺少高频的身体反馈回路。 那怎么解决?向人脑学习。你想想,人为什么要搞大脑、小脑、脊髓的分层?因为如果你把所有东西都交给一个器官去算,它根本搞不定。 这就是开头智平方这家机器人公司做的事情。他们最新推出的 NeuroVLA,是全球首个类脑架构的 VLA 具身大模型。 惭愧,其实上个月他们就发布了,而且是开源模型。我后知后觉,昨天群里大家讨论的时候才知道。 智平方这家公司,我觉得是国内最像特斯拉的中国机器人公司。端到端大模型这条路,最早是自动驾驶行业提出来的,特斯拉是第一个走通的。智平方在人形机器人赛道里做的是同一件事。 而且在 VLA 的方向上,智平方是国内最早做出端到端 VLA 模型的公司,后来到 2025 年又把世界模型深度融合进 VLA 架构,再到这次的类脑架构,他们确实一直在无人区里做事情。 继续聊模型。NeuroVLA 到底干了啥?关键就两个字,类脑。它的思路是,别再像之前一样一锅炖了,而是按照生物的神经系统把活拆开,把计算拆开。 所以它做了三层架构。 最上面是大脑层,跑在 GPU 上,负责看画面、理解语言、规划任务,只关心做什么以及大致怎么做。还是拿倒水说,大脑就负责发出一个指令,把这杯水倒到那个杯子里,剩下的具体怎么操作,它不管。 中间是小脑层,每秒数百次刷新,读取关节、力度这些传感器数据,相当于一个实时的减震器,把大脑发的粗指令变成平滑稳妥的轨迹。 类似到倒水的场景,就是水位升高、杯子重量变化、机械臂轻微晃动的时候,小脑层在毫秒级别做动作微调。 最底层是脊髓层,跑在专门的神经形态芯片上,用脉冲神经网络直接驱动电机,相当于反射弧和肌肉。 这里多说一句脉冲神经网络是啥,它的特点是事件驱动,只有在需要动作的时候神经元才放电,没事的时候几乎不耗能,跟传统神经网络要持续做矩阵运算是完全两回事。 所以这一层平均功耗只有 0.4W,就跟人的反射弧一样省电。 再回到倒水,要是机械臂突然撞到什么东西,或者外面有东西撞过来,脊髓层会在 20 毫秒内直接触发撤退动作,根本不经过大脑。这跟我们碰到烫水会本能缩手是一回事。 这套架构带来两个关键变化。第一,整个机器人具备了毫秒级的自适应控制能力。第二,高频反馈不再压在统一的大脑模型上,而是下沉到小脑和脊髓层,大脑不会再被高频任务抢算力,手脚就会超级敏捷。 他们论文里也做了仿真加实机的验证,这套类脑结构确实能让机器人动作更快、更安全。极低的功耗加上接近反射弧的反应速度,这真的强。 推荐感兴趣的同学可以 NeuroVLA 开源社区看看相关的技术文档。 这个模型刚刚发布,再过半年是什么光景我也不好说,但这事一下子就让人对机器人的能力跃迁有盼头了。
中文
1
0
0
96
小盖
小盖@xiaogaifun·
艾伦研究所的知名研究员Nathan Lambert,前两天来北京和我们熟知的国内 AI 公司聊了一圈,包括月之暗面、智谱、字节、阿里、美团、小米等等。 聊完之后,他写了一篇文章做总结。我觉得这篇挺有意思的,因为 Nathan 本身对硅谷非常熟,这次相当于带着硅谷的视角来看我们中国的 AI 实验室是怎么运作的,以及他看到了哪些不一样的地方。 文章我看完了,写一些自己的笔记。 1、DeepSeek 被所有人公认为技术品味和执行力最好,是技术方向上的引领者,但在商业上并不是引领者。 反过来,像字节、阿里这种巨头,被视为真正能够把大模型吃进整个业务体系、最终兑现成大规模市场份额的那批公司。 2、字节是各大中国 AI 实验室最重视的竞争对手,因为他们思路清晰,而且战斗力极强。 一个可以印证侧面是,在开放权重已经成主流气质的中国 AI 圈子里,字节是少数坚持走 OpenAI 这条闭源路线的公司,同时,目前他们的豆包应用地位相当于中国的ChatGPT。 3、美团、蚂蚁、小米这些公司为什么自己做大模型?国外Uber、Airbnb 这批公司也没做自己的模型,用的时候买别人的就行了。 但在这些中国公司眼里,LLM 是未来产品的核心底座,如果完全依赖外部模型,等于把自己最关键的那一层放在别人手里,被掣肘只是时间问题。所以宁可自己花大力气训一个通用模型,把这块底座攥在自己手里。 4、中国开发者几乎都被 Claude 圈粉了。Nathan 说,很多一线开发者描述日常写代码时,都主动提到 Claude,承认它改变了自己的开发方式,哪怕它在中国并不能正式落地。 少数人会提到自己在用 Kimi 或者智谱的命令行工具,但被问到真正高频依赖的助手时,几乎都会说回 Claude。在湾区很火的 Codex,在中国被提到的频率反而没有那么高。 5、中国的 LLM 社区更像一个生态,而不是彼此敌对。Nathan 和多家实验室私下交流后,发现他们谈到同行时,几乎都是尊重和欣赏,很少有火药味。而在硅谷,私下聊起其他实验室,话锋会很快变得尖锐。 6、中国大模型团队的整体气质和美国不一样。表面上看,大家都是搞大模型、RL、Agent,用的技术栈差不多,但在组织方式和人本身的气质上,中国这边更像一支全栈工程队。 研究员普遍愿意做琐碎、不出彩的脏活累活,愿意为了整体模型效果搁置自己的方案,不太追求个人署名和明星科学家身份。 这种弱 ego 的文化,在那种需要各个模块严丝合缝配合的大工程里,反而更适配。Llama 团队据说就是被相反的那种文化拖垮的,一群顶尖研究员都想让自己的方案进最终模型,互相博弈。 7、中国顶级实验室里,学生的比例非常高,而且是直接参与主战场的大模型研发,不是被边缘化的实习。和美国的 OpenAI、Anthropic、Cursor 这些几乎不开放相关实习形成鲜明对比。 Google 名义上有 Gemini 实习,但大家普遍担心实习内容被隔离在核心工作之外。 学生的优势是对旧时代 AI 范式没有太多包袱,能很快把上一套观念清空,重新学习。同时他们极度习惯在巨量论文和内部技术细节中速成,把复杂栈啃下来,进组之后就愿意把人生阶段压在这件事上。 8、中国研究员对宏大的 AI 叙事兴趣不高。Nathan 在和不少一线研究员聊天时,发现他们一提到经济结构变化、社会风险、AI 道德这些问题,往往会有明显的停顿和困惑,像是被问了一个和日常工作无关的问题。 很多人会直接表达,自己的角色就是把模型做好,而不是对社会怎么变发表观点。有位研究员还引用了 Dan Wang 的说法,中国是工程师在掌舵,美国是律师在掌舵。 Nathan 也观察到,中国并没有 Dwarkesh、Lex Fridman 这种能系统性把科学家捧成明星的播客生态。这种习惯既和个人性格有关,也深受教育和制度环境的塑造,他们在一个不鼓励公开争论社会议题的系统里长大,并且在里面取得了成功。 9、北京的 AI 圈子整体很像湾区版的紧凑硅谷。从机场下飞机,可以顺路去阿里北京园区,坐几趟滴滴,在三十六小时之内走完智谱、月之暗面、清华、美团、小米、零一万物等一长串机构。 整座城市里,打车过去就是一个新的实验室。选大一点的车型,常见是带按摩椅的电动小面包。这种空间上的密集分布,让不同实验室之间的交流成本被压得很低,研究员之间的流动也变得非常频繁。 10、中国研究员普遍更偏工程视角,对融资、产业格局、资本叙事这些话题兴趣没那么高。Nathan 在硅谷习惯了另一种氛围,研究员对外部环境的敏感度非常高,融资、算力、数据生态、行业风向,几乎每个人都在认真琢磨自己所在公司的位置和外部环境的关系。 因为今天做 AI 已经不是关起门来搞工程奇迹那种事了,模型公司同时是一个综合体,要建模、要部署、要融资、要拉生态,外面的每一根线都会反过来影响里面的研究节奏。 但中国研究员明显不在这个频道上。Nathan 问到行业生态、融资、算力供应、数据产业这些话题,得到的反应常常是耸耸肩,说那不是我的问题,我的事就是把模型做好。 11、中国企业对 AI 的花钱习惯,更接近云,而不是 SaaS。外界常说中国企业不愿意为软件买单,所以本土 AI 市场会偏小。但 Nathan 和多位从业者聊完后,感受到的现实是,虽然传统 SaaS 市场确实不大,但云服务在中国是个大生意。 关键问题变成,企业为 AI 付费,最终会更像买 SaaS,还是更像买云基础设施。从目前各家公司的实际讨论和规划来看,大家普遍不太担心企业侧的 AI 支出,倾向认为它会挂在更刚性的基础设施那一侧。 12、中国的数据产业在 RL 和高质量任务环境上明显不如美国成熟。和 OpenAI、Anthropic 那种可以为单个 RL 环境花上千万美元、一年累计几亿美金的玩法相比,中国团队的普遍反馈是,本土数据服务供应商不是没有,但质量参差不齐,很难直接买到能用的内容。 于是就形成了一种很中国式的解决办法,很多 RL 场景、评测环境干脆自己搭,研究员本人要花大量时间设计任务、构建环境。字节、阿里这种大公司,也会养起自己庞大的标注团队,在公司内部自给自足。 13、算力是所有中国实验室的共同痛点。无论走到哪家,大家对高质量英伟达 GPU 的需求都是一个词,不够用。如果供应允许,他们会毫不犹豫地继续加仓。 国产加速卡在推理侧评价还可以,已经被不少公司部署到在线服务里,华为芯片在很多实验室都有落地。但在大规模训练上,英伟达依然是黄金标准,国产方案更多是辅助补位。 14、在开放程度和生态态度上,中国实验室显得既务实又有整体视角。Nathan 几乎问遍了所有头部团队,为什么会在这样的环境下持续开放自家最强模型。他自己坦言,把所有权心态和真实的生态支持这两件事联系起来,他还没完全想明白。 但从对话里,他归纳出几个共同的现实诉求,通过开放权重,快速让更多开发者参与打磨,发现缺陷;通过回馈开源社区,获得技术和口碑上的正循环;同时在内部保留更定制、更私密的模型版本服务自家业务。整体表现出来的,是一种既不绝对开源、也不一味封闭的中间态。 15、中国实验室对英伟达芯片的渴求是压倒性的。Nathan 走访下来,所有人现在的进展都卡在同一件事上,就是英伟达的卡不够用。 如果能买到,毫无疑问会继续加仓。 这里他特意点出来一个区分,英伟达是训练这一侧的黄金标准,没有替代品。但在推理这一侧,画风就完全不一样了。包括华为在内的国产加速卡,评价都是正面的,不是凑合用,是真的能打。 Nathan 说他遇到的实验室里,无数家都已经能拿到华为芯片,供给这边不是问题。所以中国实验室现在的真实状态是一个两层结构,训练咬牙抢英伟达,推理大方用国产卡,分得很清楚。
中文
13
46
191
84.7K
小盖
小盖@xiaogaifun·
零基础想学AI,我只推荐一个免费教程。 如果你想认真学习 AI,而且之前没有什么基础,那我只推荐一个内容,就 YouTube 上的 Riley Brown。 这哥们是 Vibe Code 的创始人,频道里有非常多通俗易懂的 AI 入门教程。基本上我们知道的工具,他都会做一期。 比如最近 Codex 比较火,他刚刚就推出了一期教程,标题是《30 分钟带你吃透 Codex 的 95%》。我昨天也看了,评论区大家都说讲的非常清楚。确实,这是我见过的对初学者最友好的AI 教程。 Codex 这期内容,他会从零到一手把手演示怎么用 Codex 开发一个小工具。再往前,他也录过 Claude Code、OpenClaw 这些流行产品的视频教程。 这么讲吧,每一个重要的 AI 产品或者 AI 概念,他都会用大白话讲清楚具体怎么用。而且不来虚的,不会泛泛地铺一堆概念,而是直接带着大家上手做一个项目。 我非常喜欢他的内容。我之前自己做过教育,深知视频教程其实非常考验一个老师的魅力。有的博主一打开,神态就很老气,或者明显是在念稿子,我就关了。 这哥们看着舒服,PPT 做得也好看,听他讲东西不费劲,能听进去。 当然我知道很多人会问,YouTube 上面是英文怎么办,听不懂啊。我想说,现在 AI 已经把语言的鸿沟基本填平了,英语稀烂也绝对不是问题。 浏览器上装一个翻译插件,视频内容直接就能转成中文,跟着看就好。 而且这哥们的英文发音非常标准,如果还想顺便学一下英语,那看他的内容就更划算了。看完一期视频,AI 学到了,英语也跟着练了一遍,一举两得。 频道地址在这里: @rileybrownai/videos" target="_blank" rel="nofollow noopener">youtube.com/@rileybrownai/… 前两天我写了一期 Claude Code 的教程,评论区有同学一直让我推荐好的学习资源。说实话,如果让我只推荐一个博主的话,那一定就是 Riley Brown。这哥们的表达和内容水准,超过了互联网上百分之九十的人。 他的频道中,如果要学 Codex,我最推荐这几期入门教程: 1、Learn 95% of Codex in 30 minutes 2、Codex Full Course 2026: The NEW Best AI Coding Tool 3、Codex Replaced Claude for Me… Here’s Why 如果要学 Claude Code,可以看: 1、The Complete Claude Code Workflow (to Build Anything) 2、How to Design With Claude Code (It's OVER for Figma) 如果你想学 Skill,可以看: Claude Code Skills just Built me an AI Agent Team (2026 Guide) 现在如果想尝试最新的 Agent 技术,我优先推荐 Codex。 它有比较完整的图形界面,对没什么基础的同学很友好。像 Claude Code 这种在终端里跑的方式,好处当然很多,但很多人一看要敲命令行就劝退了,门槛确实高。 而且买 ChatGPT 会员会送 Codex 的额度,整体也划算。最近这一轮迭代完之后,我感觉这个产品已经做得非常好了。 关于 AI 的教程,我看到小红书上还有人推荐斯坦福大学的 CS135 课程,说实话这门课我真的不推荐给入门的小白。前面放出来的几节课大家可以打开瞄一眼,讲的都是 AI 的基础设施和底层架构。 这玩意对零基础的人来说根本没必要看,也很难看懂。这门课本来就是讲给斯坦福学生听的,预设的知识背景跟普通人不一样。 最后多说一句今年我自己在实践的学习方法。 跟二十年前比,我们现在面对的是一个彻头彻尾的信息爆炸时代。每天早上一睁眼,要看的东西实在太多了。每个人好像都有自己的观点,洋洋洒洒一篇就发出来了。 要是每一篇都点进去读,那场面估计就跟小时候课文里那只小猴子下山差不多。见了桃子丢玉米,见了西瓜又丢桃子,到家两手空空。时间全花在切换上了。 我现在的做法很简单。忍住不去看那些浮在面上的内容,每天挑一个质量足够高的信息源,老老实实精读一遍,然后实践。教程也一样,看的多没用,最聪明的方法就是找一个讲的好的视频,快速看完,然后实践。 共勉。
中文
4
2
9
2K
小盖
小盖@xiaogaifun·
强烈推荐大家看看DeepMind CEO Demis的最新判断。 真的,Google DeepMind 的 CEO Demis Hassabis 每一期访谈我觉得值得都花时间看看。这哥们讲东西很实在,而且通俗易懂。 早上边跑步边听完了他和 YC CEO Garry Tan 的最新一期播客。 刚刚把笔记写完,也给大家分享下。 多说一句,好多人问我这种笔记是不是 AI 写的。我说下自己的流程。 我会先完整听完播客,然后用语音输入法把感触尽量充分地讲出来,再让 AI 帮着整理初稿,最后自己逐字修改优化。 如果全部交给 AI 做总结,那等于把思考和理解的能力让渡给了 AI,对自己理解这件事其实没有任何价值。 OK,咱们进正题。 1 Demis 的态度非常明确,现在的大模型范式(大规模预训练 + RLHF + CoT)一定会是 AGI 最终架构的一部分,他不认为这会是条死路。 但要实现 AGI,还有几个关键问题要解决。这几个问题包括:持续学习、长程推理和记忆系统。 先从最容易看到的现象讲起,Context Window。 现在大模型处理长信息,最常用的招就是把 Context Window 一直撑大。一开始 8k,后来 32k,再后来 100 万 Token。听起来很厉害,但本质上是暴力堆砌。 Context Window 其实就相当于人脑里的 Working Memory,工作记忆。人的工作记忆能同时装多少东西?心理学里有个经典数字,7 个左右。背电话号码能记住 7 位上下,再多就溢出了。 大模型呢?已经做到 100 万 Token。 按理说,模型的工作记忆比人大几十万倍,应该比人聪明几十万倍才对。但显然不是。 问题也恰恰就出现在这。把所有东西都塞进 Context Window 里,里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多,其实是一团乱麻。 那人为什么 7 个数字的工作记忆就够用? 因为人脑背后还有另一套机制在工作。我们记得几年前的事,记得童年的事,记得几小时前发生的事。这些都不塞在工作记忆里,而是另一套系统。 具体来说这套系统是海马体,大脑里负责把新知识整合进已有知识库的那个部分。 研究发现,人睡觉的时候,特别是 REM 睡眠阶段,大脑会重放白天重要的片段,让大脑从中学习。新东西在睡觉的过程里,温柔地融进了旧的知识体系。 这个把新东西融进旧知识库的过程,就是持续学习。 模型现在没有这套机制。每一次对话结束,刚学到的东西就会忘记。下次重新打开,还是上次那个模型,没长进。 2 再聊聊长程推理的问题。英文表达是 Long-term Reasoning。我翻译为了长程。 长程推理这个词太抽象了。Demis 讲了一个特别具体的故事,听完会立刻明白他说的是什么。 他说自己喜欢跟 Gemini 下国际象棋。下棋的过程里能看到模型的 thinking trace,也就是它在那里到底想了什么。 然后他发现一件怪事。 模型考虑一步棋的时候,思考链里清清楚楚写着,这步是个昏招。但接下来,它没找到更好的走法,于是又走回这步昏招。 明明知道是错的,还是把错的那一步走出去了。 这个细节比任何 benchmark 数据都说明问题。因为它暴露的是模型缺少对自己思考过程的某种内省能力。 正常人下棋,意识到一步是昏招之后,脑子里会有一个反应,停一下,再想想。停一下、再想想这个能力,模型现在没有。它能在每一步局部判断对错,但没法基于整盘棋的局势去调整整体策略。 这就是长程推理还没搞定的样子。模型可以一步一步往前走,每一步看起来都合理,但走到后面整盘棋的方向其实是错的。它没有那种退回到当前思考的上一层、重新审视一下的能力。 说到底,模型缺的是一种内省。 3 学习、长程推理、记忆,这是 Demis 在播客里点出来的三个 AGI 鸿沟。 除此之外,他还反复提到了创造力。 2016 年 AlphaGo 跟李世石下棋,第二局走出了著名的 Move 37。那一步棋走出来的瞬间,全世界的围棋高手都看呆了。 所有人类几千年下围棋积累的经验都告诉它不该下那里,但 AlphaGo 下了。下完之后大家发现,是一步神来之笔。 很多人觉得,这就是 AI 的创造力来了。 但 Demis 说,对他自己来说,Move 37 只是起点。他真正想看到的是另一件事。AI 能不能发明围棋这件事本身。 这两件事的区别非常关键。 Move 37 是在围棋这个现成的规则里,找到了一步人类没想到的招。但围棋的规则、棋盘的形状、黑白子的对弈方式,是人类发明出来的。AI 在已有的框架里非常厉害,但能不能自己造一个框架,是另外一回事。 Demis 给了一个具体的设想。 如果给 AI 一个高层次的描述。造一个游戏,五分钟能学会规则,要好几辈子才能精通,棋局有审美,一下午能下完一局。AI 能不能根据这个描述,自己倒推出围棋? 目前做不到。 为了把这件事讲得更清楚,Demis 还提了一个测试,他自己叫爱因斯坦测试。 用 1901 年人类已有的全部知识训练一个模型,看它能不能在 1905 年那个时间点,自己推出狭义相对论。 爱因斯坦在 1905 年那一年里,连写了几篇改变物理学的论文,后来叫爱因斯坦奇迹年。那些工作不是从已有的物理学论文里通过拼接得到的,是基于已有材料做了一次全新的概念跳跃。 爱因斯坦测试想问的就是这件事。AI 能不能做这种跳跃。 目前的大模型主要在做两件事,pattern matching 和 extrapolation。一个是从大量数据里找规律,一个是把规律往外延伸一点。但发现新东西需要的是类比推理的能力。从一个领域里抽出深层结构,搬到另一个全新的领域去用。 这个能力,模型现在还没有。也可能是有,但用法不对所以激发不出来。 4 除此之外,Demis 还分享了一个让我特别出乎意料的判断,他说未来 6 到 12 个月,真正的价值不在更大的模型,在更小的模型。 这一部分内容我反复听了好几次,确实突破我的已有认知。 不知道大家的想法,反正我自己,这一年来并没有怎么关注小模型的进展。毕竟行业的焦点就是把模型做大嘛。 那小模型的价值到底在哪? 最直接的是成本。同样一个任务,小模型的推理价格可能只是前沿模型的十分之一甚至更少。 但 Demis 说,比成本更重要的其实是速度。 这里有一个前提得先说清楚。Demis 不是在说速度可以替代智能。 他的原话是,当小模型的能力已经达到前沿模型的 90% 到 95%,也就是已经相当不错的时候,剩下那 5% 到 10% 的能力差距,比不上速度带来的好处。 比如现在工程师用 AI 写代码,已经形成了一种新的工作节奏。一个想法冒出来,几秒之内就能看到结果,不行就改,再不行再改。 这个一改再改的循环跑得越快,做出来的东西就越好。如果每次调用都要等十秒,整个工作流就被打断了。 更关键的是,快到一定程度,工程师在这种节奏里能进入心流。一个想法、一次尝试、一个反馈、再来一个想法,思维不被打断。 这件事写过代码的人都懂,进入心流和频繁掉出心流,产出的差距是数量级的。 Agent 也是同样的逻辑。一个 Agent 跑完一个任务可能要调几十次模型,每次慢一秒,整个任务就慢一分钟。慢到一定程度,Agent 就从一个能用的东西变成鸡肋。 小模型不是大模型的廉价替代品。有些事只有小模型能做。 比如手机、眼镜、家用机器人,需要的就是一个能在本地跑起来的模型。本地跑除了反应快,还有一个特别重要的好处,隐私。 家里机器人看到的视频、听到的对话,全部在设备本地处理,根本不上云。这件事对很多用户来说不是加分项,是底线。 成本、速度、边缘部署,这是小模型的价值。 5 讲完小模型的价值,接下来一个更关键的问题是,能力被压到这么小的参数里,会不会有上限? Demis 的判断是,目前没看到信息密度有任何理论上限。小模型的智能天花板还远没看到。 支撑这个判断的,是 DeepMind 在蒸馏这件事上的积累。蒸馏简单说就是先训练一个超大的模型,然后用这个超大模型去教一个小模型。教完之后,小模型用极少的参数,能复现原来 95% 以上的能力。 为什么 DeepMind 这么重视蒸馏?因为要把 AI 能力放进谷歌的头部产品中,前提是低延迟、低成本。前沿模型再强,每次推理花几秒钟、花几毛钱...这条路,恐怕很难走得通。 一个前沿模型发布之后,6 到 12 个月内,他们就能把这个模型的能力蒸馏到边缘设备能跑的小模型上去。这个时间表比很多人想的要快。 在很多场景中,小模型和大模型会相互配合。 举个例子,一个端到端的智能助手,绝大部分日常任务在本地的小模型上跑。智能眼镜看到的画面、家里机器人听到的对话、手机里的私人助理,模型直接在设备里读懂,不需要往云端传一遍。 只有遇到特别复杂、本地搞不定的问题,才向云端的前沿模型发起请求。 也就是说小模型在边缘做主力,前沿模型在云端做后援。 不过,这个构想对小模型的要求也比较高,它不能只会处理文字,还得能理解物理世界。 这就是为什么 Gemini 从一开始就坚持多模态,不光处理文字,也处理图像、视频、声音。 一开始这么做比只做文本要难得多,但眼镜也好,机器人也好,需要的是一个能看懂周围世界的模型,不是一个只会聊天的模型。 讲到这里,小模型这条路的轮廓就完全清楚了。它独立成立,不是前沿模型的廉价替代品,而是另一条同样重要的路。 嗯,很有启发。
中文
48
239
1.2K
180.7K
小盖
小盖@xiaogaifun·
昨天下午听了一场具身智能的分享,只有 45 分钟,非常精彩,基本把整个行业目前的情况讲清楚了。我建议对具身智能感兴趣的朋友都找回放看一下。 分享人是明星创业公司自变量机器人的 CEO 王潜和 CTO 王昊。虽然是一场新模型的发布会,但他们都很实诚,实实在在把当下行业里的问题、自家的思路都摆在了台面上。 王潜开场的话让我印象很深。他说,我们每个人都期待,一觉醒来,家里的机器人能把房间打扫的干干净净。但目前没有任何一台机器人可以在没有遥控操作的情况下搞定这事。 AI 在数字世界的进展快得惊人,但到了物理世界,离我们想要的状态还很远。 这时候肯定有人要追问:机器人都能表演武术、跳舞、后空翻了,做点家务真的有这么难吗?再说,工厂里那些机器人上个世纪就已经非常成熟,难道家里的活儿,比工厂蓝领的工作还难干? 答案是:对,确实更难。 我们刷到的那些酷炫机器人视频,本质上都是预设动作。工程师提前把程序编好,机器人按部就班跑一遍就行。它看起来灵活聪明,其实根本不理解自己在干什么。 工厂机器人也类似,做的事情是重复。制衣厂的机械臂卡在一个环节,比如钉纽扣,每天把同一个动作重复一万次,精度是够的,但也仅此而已。 但家务活完全是另一回事。 今天餐桌的杯子,明天可能放在了卧室床头柜。昨天下午光线很亮,今天阴天光线就变了。极端一点讲,做家务的过程中,没有任何一次情况是跟上一次完全一致的。机器人必须当下识别、当下判断、当下执行。 那行业里现在是怎么解决这个问题的? 整体的思路,叫 VLA 架构。V 是视觉,L 是语言,A 是动作。把这三样打通,机器人就具备了基础的感知和执行能力。这条路已经跑了一段时间,我们现在看到的绝大多数具身智能模型,基本都是 VLA 架构。 但 VLA 有个本质问题,它的核心范式是模仿。 具体怎么运作?举个例子。想让机器人学会叠衣服,得先喂给它大量叠衣服的数据。模型在这个过程里,把看到的画面和对应的动作一点点记下来,形成一套反应模式。再遇到叠衣服的任务,它就调出这套模式来执行。 这套方法在实验室里跑得很漂亮。只要测试环境和训练时差不多,衣服能叠得整整齐齐。但场景一换,光线变了、衣服款式不一样了、桌子高一点矮一点,它就容易当场崩溃。 问题出在哪儿?它没有真正理解环境背后的规律。它学会了拿杯子这个动作,但不知道杯子为什么会掉下来;它知道盘子要放桌上,但不知道半个盘子悬空就要摔了。它记住的是动作的样子,不是动作背后的因果。一旦环境跟训练数据对不上,它立马就懵。 话说回来,VLA 这套思路并不是走错了路,反而是目前行业能找到的最好的方向。 在 VLA 出现之前,机器人的各项能力都是分家的。VLA 第一次把视觉、语言、动作这三件事连到了一起,让机器人具备了综合意义上的感知加执行能力。这是一次很关键的跃迁,也正因为有这个突破,行业才愿意在这条路上投入这么多年。 只是跃迁归跃迁,短板还是在那儿。自变量之前发布的 WALL-A 模式,其实也是类似的 VLA 架构。 那怎么办? 在聊自变量的新模型之前,先说一下行业里其他公司在 VLA 基础上探索新的思路。很多团队的做法,是在 VLA 之外再加一个世界模型模块,让两套系统协作。世界模型的核心能力是预测环境,就像我们人在伸手拿杯子之前,脑子里其实已经预演过一遍整个动作了。所以大家想,把世界模型加进去,机器人的理解能力不就上来了吗? 听起来挺合理,但其实不是这么回事。这种模块化拼接的方式,还是会损失信息,本质上只是一个过渡方案。 打个比方。苹果在自研芯片出来之前,电脑里的 CPU、GPU、内存是分开的几块芯片。用过那代 Intel 芯片 Mac 的人都有体会,卡顿、发烫是家常便饭。 核心问题就出在,信息要在几个芯片之间来回倒腾,损耗很大。后来 Apple Silicon 干了什么?把这些东西统一集成,数据不用再跨模块搬运,性能和能耗立刻上了一个台阶。 这次自变量发布的 WALL-B,干的就是类似 Apple Silicon 的事情。 WALL-B 的架构叫世界统一模型,英文缩写 WUM。思路其实很简单,不再把视觉、语言、动作拆成三块分开处理,也不靠模块之间传话,而是从训练的第一天起,就把所有这些能力放进同一个模型里一起训练。相当于以前是多芯片架构,数据要在不同模块之间来回切换;现在是统一架构,所有能力在同一个系统里直接协同。 这样做带来的好处有三点。 第一是原生多模态。机器人不再是先看、再理解、再行动这种流水线式的操作,而是看的同时在理解,理解的同时在决定怎么动。整件事是同时发生的,跟我们人看到一张图不需要先翻译一遍是一个道理。 第二是对物理世界的理解。机器人不再只是识别出一个物体,而是开始理解物体背后的物理规律。比如重力、惯性、摩擦力。这些都是底层的物理规律,不管家里什么布局、桌子什么材质,规律都一样。 盘子悬在桌边会掉下来,这件事跟盘子长什么样、桌子是木头还是大理石没关系。 第三是自我进化。机器人跟真实世界交互的过程中,能自动调整。比如杯子第一次没抓紧,它能立刻反应过来,下一次就知道该用多大的力。 架构说得差不多了,还有一个绕不开的问题,就是数据。因为模型最后的天花板,很大程度上是由数据决定的。 具身智能行业的数据大致分两类。一类是实验室里的干净数据,摆拍得整整齐齐,光线灯光都安排好。另一类是家庭环境里的真实数据,乱的,复杂的,充满意外的。前一类数据不缺。后一类稀缺,而且难收集。 过去很长一段时间,行业里大家都在琢磨,能不能想办法绕开家庭真实数据这一关,比如用合成数据、用虚拟环境代替。 自变量给出的判断是,真实数据绕不开。也许最难的那条路,恰恰是最简单的路。想让机器人更快迭代,只有一个办法,尽可能多地收集真实环境的数据。 所以他们现在做的事,就是把机器人直接带进家庭,在真实的家里采集数据,用这种复杂、混乱、不可预测的环境去训练模型。按他们的时间表,下个月新机器人就会正式进入首批用户家里,长期运行,收集真实世界的反馈。 首批体验用户的招募现在已经对外开放,感兴趣的朋友可以去关注一下,说不定你就是第一批家里有机器人保姆的人。 不过具体到机器人进家庭,其实很多人的第一反应是隐私。王潜在现场也专门讲了这一点。他说自己能理解这种担心,换做他自己,也怕一个会动会听会说话的东西进到家里,偷看到晚上11点穿着睡衣坐在沙发上吃方便面的样子。 所以他们也针对性做了处理。比如机器人看到的画面,在设备里就直接打码处理了,原始图像根本不往外传,也不上传云端。要不要开机,也得主人自己按下同意键,不会偷偷启动。每台机器人只认自己的主人,察觉到奇怪的指令就会自动锁定。 最后再说两句感性的话。 我在现场看到自变量团队做的机器人发展史。在 2010 年之前的几十年里,机器人舞台上重要的创新,都是美国公司和日本公司主导。到了 2010 年之后,我才零星看到了中国公司出现。 然后在 2020 年之后,中国公司开始密集出现。当时我对着那张图看完,还是非常有冲击感,我能感觉到在这么重要的领域,中国的创业公司开始深度参与到创新的洪流当中,还是蛮兴奋。
中文
1
0
3
629
小盖
小盖@xiaogaifun·
读到一篇既有方法论又有深度的 AI 创业访谈,我看得津津有味。 这让我想起多少年前去看周航那本叫《重新理解创业》的书时的感受。 这篇文章采访的是前钉钉副总裁王铭。他离开钉钉之后创业做了一款 AI 产品叫 Moras,我理解就是一个电商类的 Agent 产品,目前 Focus 在北美市场。 最近四个月已经完成了两轮近亿元的融资,而且基本上跑通了PMF,零基础的达人使用 Moras 首周出单率就超过了 70%。 我自己在创业做事,我觉得一个人能把事做成,本身就是认知和能力的自然结果。 这是我一以贯之的想法。看了这篇采访之后,再一次印证了这个判断。人家的认知确实比我强太多,怪不得我创业失败呢。 所以强烈推荐正在创业的朋友看看。 1 创业到底做什么方向?我经历过几次创业,都在这个问题上犯过错。现在我的经验是做自己擅长的,或者在之前的工作延长线上做事情。反正这次创业我就是这个思路。先让团队活下来。 但王铭不是。他之前在钉钉,延续经验的话大概率会做协同办公类的产品。但 Moras 其实是一个电商类的 Agent。协同办公和电商完全不搭边,两个行当。 他说他和团队在选择创业方向时,归纳了一个筛选方法论,叫四做五不做。 要做的四件事:做增量市场、做双边结构、做短期能看到结果的事、做有机会成为行业第一的事。 不做的五件事:不做非刚需场景、不做纯国内、不做海外 ToB、不做纯工具、不做纯依赖大模型的事。 上面这几点,只要在创业的同学绝对会有共鸣。 我就拿做短期能看到结果这条来说。可能很多人一听会觉得,这是不是太短视了?真的不是。这其实是一种创业策略,跟目光短浅完全是两码事。 你想想看,创业刚开始的时候,手里没有多少钱,市场没有耐心,团队也没那么多耐心。如果一个方向要等两三年才能看到正反馈,那这事就不成立。我们不可能动不动就说,哎呀,坚持坚持就是胜利。 创业这事最好的状态就是小步快跑,大家能看着结果,你心头也有底气。像人家马斯克那样一个事砸那么多钱进去,压好几年才见着结果,99%的创业者没办法那样干。 更务实的策略,包括我现在也是这么做的,手里任何一个项目都先去看短期内能不能见着结果。能见着我们就跑,见不着就要想清楚,是不是值得长期投入。 这也是为团队负责。 再比如不做纯工具。这一点我也非常认同。 因为工具类的产品天花板太低了,甚至我觉得随着接下来 Claude Code、Codex 这样产品的渗透,大部分的工具,都会以 Skill 的形式存在。像最近我画流程图、脑图,都已经在用 Skill 了。 AI 时代,留给工具的空间会小很多。 2 他们团队最开始计划做三个方向。一个是 AI 漫剧,一个是 AI 版的 TikTok,一个是现在的电商 Agent 方向。但用刚才的筛选方法论推演和预研之后,很快就砍掉了前两个。 AI 漫剧这个方向,对创作者的经验依赖度其实挺高的。这种情况下你去做,要么做成一家内容公司,要么最后就做成了一个纯工具。 AI 版的 TikTok 也是一样。Sora 的结局我们都看到了,根本不 work。所以他们当时的判断还是挺准的。如果真的选了 AI 版的 TikTok,现在估计很难受。一是模型整体还没到那个水平,二是即便做出来,成本也高得吓人。短期内见不着结果,连 OpenAI 都撑不下去,创业公司就更别提了。 最后他们选定了 Moras,也就是电商 Agent 这个方向。 那为什么是 Agent,而不是 SaaS 呢?因为 SaaS 产品的本质还是工具。不管是 CRM 的 SaaS、财务的 SaaS,还是 OA 的 SaaS,它们的本质都是让员工更顺手地完成工作,核心是提升人的效率。人还是要坐在那里,一步一步把事情做完。 再说,现在做电商的 SaaS,也早就没机会了。电商供给侧的 SaaS,这十年时间早被人做遍了。 Moras 做的事更进一层,它直接交付结果。 举个例子解释下 Moras 到底能干什么。 传统做 TikTok 带货,达人要自己选品、等样品、拍视频、剪辑、写脚本、挂橱窗等等。每一个环节都需要达人自己干。 对于达人来说,其实这套流程挺复杂,挺琐碎的。Moras 可以把这一整条链路全部接管了。选品有选品的 Agent,脚本有脚本的 Agent,视频生成、发布节奏、运营调整,全都由一组 Agent 跑起来。 达人只需要提供自己的账号权限,在关键节点做出判断就行,剩下事情全部可以交由 Moras 去干。 我觉得这就是工具和 Agent 最本质的区别,也是两个时代的分界线。SaaS 的时代结束了。 Moras 的商业模式也特别有意思。前面讲再多概念都是虚的,看一眼它的商业模式,就能具象地理解什么叫 Agent 了。除了一种接近传统 SaaS 的模式,Moras 还有两种更激进的玩法。 第一种叫底薪加提成。达人每个月付一点订阅费,这笔钱相当于给 AI 交的底薪,然后把 Moras 当成一个 AI 雇来干活。 因为是人在雇 AI,所以达人在整个过程里保留了比较大的主动权,Moras 帮忙生成内容,达人自己拍板。 作为回报,AI 会从中分走一部分佣金。这种模式已经跟纯 SaaS 不太一样了,因为收入直接跟结果挂钩,但整体上还是人在主导。 第二种最颠覆,叫全托管。 达人一分钱都不用付,Moras 把所有的活都干了。达人唯一要做的事情,是提供一个真实的社交账号,然后按照 AI 给的指令点一下发布。选品、脚本、视频、发布节奏,全部由 AI 完成。 说白了,就是直接把带货这事整个外包给了 AI。作为回报,AI 分走 70% 的利润,达人拿 30%。 这里有意思的地方来了。访谈里说,北美用户里还挺多人喜欢这种模式。我想了一下,如果换成是我,我也会倾向于选这个。为什么呢? 第一,我自己其实也不知道这事到底能不能赚钱。你要让我每个月先掏一笔订阅费,再自己花精力去琢磨选品、研究脚本、盯发布节奏,这对我来说风险是全在我这边的。万一折腾半天没结果,钱也搭了,时间也搭了。 全托管这种方式就不一样了。我把账号交出去,你赚到钱咱们分,赚不到我也不亏什么。我甚至都不用担心你这个 AI 干得好不好。因为如果你不好好干,或者 AI 能力就是不行,那光耗 token 烧的是你的成本,最后没挣到钱,赔钱的是你,对我来说一点损失都没有。 换个角度看,这种模式其实把达人和 AI 放到了同一条船上。双方的利益是完全绑定的,谁也没办法糊弄谁。
中文
0
1
2
714
小盖
小盖@xiaogaifun·
这张图画的真到位,完美解释了 Harness 的本质。 出自 LangChain 产品负责人 Vivek 之手。 这哥们最近写的关于 Harness 的文章,每一篇都足够深刻。 这哥们最近写的关于 Harness 的文章,每一篇都足够深刻。 大语言模型看起来什么都知道,但每次干活的时候,它其实只能看到一个有限的窗口,也就是 Context Window,上下文窗口。 可以把上下文窗口想象成一张桌子。模型只能处理桌面上摆着的东西。桌子外面的世界再大再丰富,模型看不见,就等于不存在。 这是一个非常关键的前提。别幻想模型心里有数,它只知道这一次被塞进去的内容。其他所有知识,对它来说都不存在。 那问题来了。谁来决定桌子上放什么? Harness 就是那个摆桌子的人。负责从外部世界把正确的信息取回来、整理好、然后放到模型的桌面上。让模型拿到该拿的东西,开始干活。 简单说,模型只对桌子上那一堆 Token 做推理。工具、系统提示词、hooks、中间状态、长期记忆,这些都不在桌子上,它们只是外部上下文,要靠 Harness 系统去获取->加工->注入,然后组装成一个个 Context Fragment,再决定哪些该进上下文窗口,以什么顺序排列。 每一个被加载进去的片段,都代表一个明确的决定。这个决定可能是用户做的,也可能是 Harness 设计者提前做的。总之有人判断过,模型此刻需要这条信息才能把事情做好。 听起来好像很简单对吧。不就是把信息塞进去嘛。 难点在于桌子的面积是有限的。 放太少,模型缺乏关键信息,做出错误判断。放太多,信息互相冲突、互相干扰,模型反而更容易犯糊涂。 所以你看图中的轴线,一端是 Signal,有针对性的、精准的信息,带来更好的计算结果。另一端是 Noise,冲突的、过时的、冗余的信息,让模型越算越乱。 所以 Harness 的核心能力,说到底就是做信号筛选。选得好,信号密集,模型算得准。塞一堆冲突陈旧的东西进去,只会变成噪音,让模型犯蠢。 最终进入上下文窗口的那一叠内容,是有结构的。最上层是系统提示词,下面是工具描述,然后是 Hooks 注入的环境信息,从记忆库里搜出来的相关片段,再加上用户当前这轮的输入,工具返回的结果,以及之前积累的执行轨迹。 模型只对这一整叠东西做一次前向计算,然后给出下一步动作。 这和人类做决策其实一样。面对一个问题,脑子里涌现出无数相关记忆和知识,但真正影响判断的,往往就是那几条最关键的经验。大脑天然在做这个筛选。Harness 需要为模型做同样的事。 早期的 Agent 应用比较简单,外部信息相对固定,Harness 的工作量不大。但现在情况变了。 Agent 在每一次交互中都会产生大量数据。每一次对话、每一次工具调用、每一次执行过程,都是一段经历。这些经历积累下来,就形成了经验记忆。 而且执行轨迹的一部分,又会以新体验的形式写回记忆库。这构成了一个闭环。跑得越久,记得越多。 更厉害的是,Agent 的记忆有一个人类不具备的优势。Agent 可以被复制、被分叉。一个 Agent 学到的经验,可以共享给所有同类 Agent。人类做不到这一点。一个医生积累了三十年的临床直觉,没办法直接复制给另一个医生。但 Agent 可以。 这意味着随着时间推移,记忆库会指数级膨胀。存储不是问题,问题是检索。 当记忆库小的时候,全部塞进上下文窗口也无所谓。但当记忆库膨胀到几百万条记录的时候,Harness 必须学会精准搜索,在合适的时候把合适的记忆片段捞出来。记得越多,反而越容易找不到关键的那一条。 检索,才是真正的瓶颈。
小盖 tweet media
中文
0
1
4
287