monozuki
2.9K posts









把时间线拉长,AI在更长时间尺度上会以什么速度发展? 对此我有三个AI猜想: 第一猜想:AI算力每十年加速六个数量级 第二猜想:AI全方位能力(感知/决策/生成)错误率每十年下降一个数量级 第三猜想:AI错误率每下降一个数量级(加上新能力涌现),应用范围和领域(市场规模)上升一个数量级 【长推】 第一猜想:AI算力每十年加速六个数量级 这十年深度学习的复兴,本质上也是因为和20多年前上一轮神经网络浪潮相比,硬件大概加速了六个数量级以上(CPU加速4个数量级,GPU并行计算架构的兴起加速了2~3个数量级),软件算法也快了六个数量级以上(包括编译器,模型改进,对深度学习可解释性的认知都在改进),这才迎来了深度学习的量变到质变 这个速度是软硬件加起来二十年加速了12个数量级 而未来十年,AI算力也许会再次加速六个数量级【图一】 把这六个数量级分解一下,硬件通过架构加速十倍(DSA黄金年代延续),半导体工艺如tech node scale down二十倍,interconnect和chiplet技术让规模增大数倍,软件算法变快1000倍(新模型新算法) 软硬各加速三个数量级,合起来六个数量级 上一轮到这一轮深度学习浪潮相隔20多年加速12个数量级,未来十年加速6个数量级,摩尔定律继续生效 第二猜想:AI的错误率每10年下降一个数量级 先介绍一个概念:cross entropy loss,这是常用的机器学习损失函数,衡量的是预测的概率分布和真实的概率分布之间的差异,Cross entropy loss反应到结果就是更精确,错误率更低 从【图二】里来看,算力/模型大小每增加6个数量级,Entropy loss 减小3个数量级,但Entropy loss减小无法直接对应错误率,可以拿imageNet这十年的错误率发展作参考 【图三】imageNet错误率按TOP5来算(生成5个答案,有一个对就算过,这也是为什么bard会生成3个答案供选择),每十年的错误率降低17倍,按TOP1来算(生成1个答案),10年的错误率降低5倍 ViT和十年前的AlexNet比较训练所需的硬件算力增长大概在2~3个量级之间,也就是说软硬件加起来按加速5个算力,错误率下降一个数量级来算 再看从GPT3.5到GPT4之间,算力增长2个数量级,错误率下降一倍,换算过来也是六个量级算力换错误率下降一个数量级 而5~6个量级大概是十年AI算力加速的量级,所以也就是十年大概能降低一个数量级的错误率 AI要维持现在的发展速度,算力需求每3.5个月倍增,也就是每年十倍,这是目前的硬件软件算力加速长期进度无法赶上的 比如微软今年刚买了7万个A100花7亿美元,不可能十年后花7万亿美元买显卡。所以长期来看,AI十年能降低一个数量级的错误率是比较切实际的 第三猜想:AI错误率每下降一个数量级(加上新能力涌现),应用范围和领域(市场规模)上升一个数量级 这个猜想详见引用的推文或者【图四】,实际上就是AI“取代”人类的部分任务的过程 当AI的可靠性可以发展到AI医生(美国医疗占GDP18%),AI律师(美国法律服务占GDP 6%),L4全自动驾驶(美国交通行业占GDP 6%),想象力将会更一步扩大 在这三个猜想的基础上,其实能推出很多有意思的结论,比如我们是不是马上要进入AGI取代所有人工作的时候了?从这三个猜想的基础上来看,起码还没有那么快 降低cross entropy loss机器学习损失函数,每前进一步其实都异常的艰难,耗费的算力都是指数级上升,真的是路漫漫其修远兮,吾将上下而求索











Watch this extraordinary documentary about Jimmy Lai, a multi millionaire who gave up everything for the fight for freedom. We are fighting the same fight here in America. Find out why the people of Hong Kong call themselves Hong Kongers not Chinese (refers to the Mainland Chinese). The former are free people (until now), the later slaves of the CCP. Movie link: freejimmylai. com (Twitter won’t let me tweet the link. Please omit the space after . to access the movie)












