
人形机器人,离成熟越来越近了。
人形机器人离成熟越来越近了。我看到机器人创业公司智平方,发布了第一个类人脑架构的具身大模型,真心感觉机器人离真正能上手干活帮我们洗衣做饭的那一步越来越近了。
类人脑的模型绝对是一个重要的里程碑。
要理解这事的重要性,咱们得往回倒腾倒腾,这些年机器人行业模型的迭代思路。
早之前的传统机器人,好多模块是拼凑起来的。视觉模块负责识别,规划模块负责路径,控制模块负责执行,分模块各干各的。
这跟早期 NLP 的思路一样,翻译是一个模型,分类是一个模型,搜索是一个模型。
后来大模型来了,大家就特别兴奋,因为大模型可以一统江山。
于是从业者就开始想,既然大模型已经能统一语言、视觉和推理,那是不是也能顺便把机器人的控制系统统一了?把视觉、语言、动作全部塞到一个统一的大模型里,这就是经常提到的 VLA 模型。
这套思路听起来很合理,既然一个大模型能搞定那么多事,那为什么不让机器人也在一个大模型里直接完成从思考到执行的全链路?
比如我们跟机器人说,把这杯水倒到那个杯子里。摄像头拍下画面,大模型理解场景,然后进行推理,最后输出机械臂的执行动作,整个链路是统一的。
这个方向非常性感。所以,前几年的思路是,只要 VLA 模型变得越来越聪明,机器人一定可以执行得越来越好。
但慢慢就发现问题了。VLA 在理解任务上确实越来越强,可一进入真实世界,漏洞百出。
大家肯定在视频中见过,机器人拿东西手在抖,动作不稳,碰撞之后也不会闪躲,非常僵硬。我相信大家只要看过过去的人形机器人,都会有这种感觉。
为什么会这样?因为大模型擅长的是低频、抽象、语义层面的思考。但机器人的世界是高频的、连续的、实时的、物理的。
还是拿倒水举例子。VLA 的思路是,机器人拍下画面,模型理解当前场景,再决定机械臂下一步动作。
但现实里头的倒水比这复杂多了,水在杯子里晃,重量和重心一直在变,机械臂自己也有微小的震动,光线一变摄像头识别还会有偏差。这些变化是高频的、连续的,眨个眼就过去好几轮。
可 VLA 这边呢,视觉帧率有限,模型推理慢,还得一个 Token 一个 Token 往外吐,整体反应不过来。
最后的结果就是,大脑知道自己在倒水,但身体根本跟不上。虽然很多 VLA 也会接入关节状态和传感器数据,但整个架构依然是视觉和统一推理中心主导。
这就好比我们刚学骑自行车的时候,理论上是知道怎么骑的,视频教程也看了不少,但身体的平衡就是控制不住。机器人现在的情况就是这样,VLA 层面知道该怎么做,可身体跟不上。
那为什么人倒水不会洒?因为靠的是大脑、小脑和脊髓的分工。大脑只负责一件事,我要把这杯水倒进那个杯子。
手怎么伸、怎么握杯、力度怎么调整,这些根本不用大脑操心,全是小脑在毫秒级做微调。
就像要是水突然溢出来烫到手,我会本能地一把缩回去,这个反射根本来不及经过大脑,是脊髓直接搞定的。
可过去的 VLA,是想让一个统一的大脑兼任所有事情,整体决断、平衡系统、肌肉控制器、应急系统全归它管。
结果就是又慢又不稳,不利索。说到底,核心问题就是机器人缺少高频的身体反馈回路。
那怎么解决?向人脑学习。你想想,人为什么要搞大脑、小脑、脊髓的分层?因为如果你把所有东西都交给一个器官去算,它根本搞不定。
这就是开头智平方这家机器人公司做的事情。他们最新推出的 NeuroVLA,是全球首个类脑架构的 VLA 具身大模型。
惭愧,其实上个月他们就发布了,而且是开源模型。我后知后觉,昨天群里大家讨论的时候才知道。
智平方这家公司,我觉得是国内最像特斯拉的中国机器人公司。端到端大模型这条路,最早是自动驾驶行业提出来的,特斯拉是第一个走通的。智平方在人形机器人赛道里做的是同一件事。
而且在 VLA 的方向上,智平方是国内最早做出端到端 VLA 模型的公司,后来到 2025 年又把世界模型深度融合进 VLA 架构,再到这次的类脑架构,他们确实一直在无人区里做事情。
继续聊模型。NeuroVLA 到底干了啥?关键就两个字,类脑。它的思路是,别再像之前一样一锅炖了,而是按照生物的神经系统把活拆开,把计算拆开。
所以它做了三层架构。
最上面是大脑层,跑在 GPU 上,负责看画面、理解语言、规划任务,只关心做什么以及大致怎么做。还是拿倒水说,大脑就负责发出一个指令,把这杯水倒到那个杯子里,剩下的具体怎么操作,它不管。
中间是小脑层,每秒数百次刷新,读取关节、力度这些传感器数据,相当于一个实时的减震器,把大脑发的粗指令变成平滑稳妥的轨迹。
类似到倒水的场景,就是水位升高、杯子重量变化、机械臂轻微晃动的时候,小脑层在毫秒级别做动作微调。
最底层是脊髓层,跑在专门的神经形态芯片上,用脉冲神经网络直接驱动电机,相当于反射弧和肌肉。
这里多说一句脉冲神经网络是啥,它的特点是事件驱动,只有在需要动作的时候神经元才放电,没事的时候几乎不耗能,跟传统神经网络要持续做矩阵运算是完全两回事。
所以这一层平均功耗只有 0.4W,就跟人的反射弧一样省电。
再回到倒水,要是机械臂突然撞到什么东西,或者外面有东西撞过来,脊髓层会在 20 毫秒内直接触发撤退动作,根本不经过大脑。这跟我们碰到烫水会本能缩手是一回事。
这套架构带来两个关键变化。第一,整个机器人具备了毫秒级的自适应控制能力。第二,高频反馈不再压在统一的大脑模型上,而是下沉到小脑和脊髓层,大脑不会再被高频任务抢算力,手脚就会超级敏捷。
他们论文里也做了仿真加实机的验证,这套类脑结构确实能让机器人动作更快、更安全。极低的功耗加上接近反射弧的反应速度,这真的强。
推荐感兴趣的同学可以 NeuroVLA 开源社区看看相关的技术文档。
这个模型刚刚发布,再过半年是什么光景我也不好说,但这事一下子就让人对机器人的能力跃迁有盼头了。
中文
