HGH
278 posts


@darkstarlightme @mubeitech 论文先行于正式产品这很正常,《Attention Is All You Need》2017年就发表了,甚至AlexNet的相关论文在2012年就发表了,这些都是奠基。
中文

所有人都在死盯大语言模型的更新。
Yann LeCun悄悄扔了个王炸。
这篇新论文可能会改变未来十年的游戏规则。
它叫LeWorldModel。
大语言模型的本质只是猜词游戏。
它们极度擅长语言,但根本不懂现实。
LLM能给你写一万字小球撞墙的优美散文。
但它算不出小球到底落在哪。
世界模型干的就是算落点。
预测物理世界下一秒发生什么。
物体移动,碰撞,坠落。
这是自动驾驶和实体机器人的真正底座。
但以前的世界模型有个致命伤。
它会“崩溃”。
为了偷懒,它会把所有输入都算成同一个输出。
就像天气软件每天都预报晴天。
为了防崩溃,科学家只能疯狂打补丁。
冻结编码器,加一堆超参数,堆上各种数学黑科技。
勉强维持一个摇摇欲坠的纸牌屋。
LeCun团队直接掀了桌子。
把那些破烂补丁全扔了。
LeWorldModel只用两招。
一个预测损失,一个强制特征保持多样性的正则化器。
超参数从6个直接砍到1个。
越简单,越恐怖。
参数量极小,只有1500万。
单张普通GPU,几个小时就能训完。
规划速度比基于大底座的世界模型快了整整48倍。
消耗的token少了200倍。
从2022年起,LeCun就在死磕JEPA架构。
同行笑他理论好听,但根本没法稳定训练。
今天这篇论文把质疑者的嘴堵上了。
小模型,稳定训练,没打补丁,不崩溃。
目前的AI界有两条路。
一条是继续烧钱堆算力,喂海量文本给巨型LLM。
另一条,是让模型通过原始像素直接学习物理法则。
第二条路不仅走得通。
而且正在以极低的成本,从物理维度包抄算力巨兽。

中文

@lauMichael4 @MacPook_Bro 通过降低物料成本让很多预算有限并且对性能要求不高的人用上成熟的产品不好吗?补贴后三千多我甚至认为这对预算有限的人来说是件好事。当然你可以骂它为什么不用更好的物料,但我不理解你这种通过NEO这款产品对苹果完全改观的底层逻辑何在。没有恶意哈!纯属疑惑。
中文

@lauMichael4 @MacPook_Bro 苹果没有宣传这电脑性能有多么优秀,重要的参数都列出来让消费者了解自己买到的是什么配置。而且你认为消费者买这台电脑是冲着它性能去的吗?既然消费者心里有数,那谈何骗?还是你认为他们大部分人买回家会发现性能满足不了自己需求,是否是你高估了很多人使用电脑所需要的性能呢?
中文

@LiuAaron89366 @szslg Dario就是Anthropic的CEO呀。为什么这条推文有十多个赞却只有一条评论?或许人云亦云的人还是太多了。
中文

@Xiaoniu6161 独自语音回应?还以为有什么新料,但这不是公开节目嘛,回应也是说的是因为力气呀。这点非要说你错的话那也不对,确实是老高在“独自”说话。但“坐实”两个字怎么写你不会不知道吧,骗点击吗?
中文

@NPC888666 因为总价是固定的,大家约定俗成计算时是算全面积,所以就把总价除以了全面积。要是非要设置成只交公摊也可以,那样单价也就贵了。但现在的规则并非是只算公摊面积,所以这家要是只缴公摊的钱其实某种层面也是在薅其他业主的羊毛。
中文

@Tianshuihanyan 他能克制住愤怒没有开枪其实更令人尊敬。因为事情发生了而袭击者活下来比他死去会有用得多得多,我们能从中去发现很多线索,能够更有效地反思与寻找对策尽量避免以后类似的事情再度发生。
中文























