on

340 posts

on

on

@tomondev

United States Katılım Temmuz 2017
266 Takip Edilen44 Takipçiler
on
on@tomondev·
@macastel3 It's incredible how open China market *is*
English
0
0
0
144
on
on@tomondev·
@interjc 我觉得中国现在挺好的,其实可以考虑回国
中文
2
0
6
1.3K
Justin
Justin@interjc·
日本入管局的这一通操作,最核心的问题并不是标准的提高,甚至也不是有没有饱和攻击式审查 根本在于随机执法无例可循,没有明文条款化 在看客看来无非是没通过就拍拍屁股走人的事,实际上沉没成本非常大 把重资本能否为继寄托在薛定谔的更新结果上,风险极大而且无法管理 信誉就是基于此
中文
35
1
115
27K
on
on@tomondev·
@ltshijie 都是德州帶的頭
中文
0
0
2
166
on
on@tomondev·
@ltshijie 之前讓英國護航他們不參加,現在美國封鎖了他們反而要參加護航了?
中文
1
0
0
116
一口新饭
一口新饭@onenewbite·
@goodsent2 @teslayoda 关于特斯拉,我确实有些东西想学习,可能会做视频聊一下。但是现在不是特斯拉公司最困难的时期,但可能是部分一波$tsla holders 最困难的时期。这种对”holders”最困难的时期来来去去总会有。取决于holders 是谁。
中文
11
1
74
8.8K
on
on@tomondev·
@ltshijie LT老师能否说说纳斯达克指数规则改变对ETF比如QQQ的影响
中文
0
0
0
105
LT 視界
LT 視界@ltshijie·
華爾街日報,對習主席而言,這事不僅侮辱性極強,傷害性也大;中共掩蓋北京惡性案件背後;伊朗戰爭是否“爛尾”? youtu.be/MfoecEAAK9I
YouTube video
YouTube
中文
2
2
31
75.1K
on
on@tomondev·
@jefflijun 对屁民的管控的工具箱里,中国比美国的工具更多
中文
0
0
1
316
Jeff Li
Jeff Li@jefflijun·
很明显,在对企业收购并购和技术监管的工具箱里,中国比美国的工具更多
中文
15
1
23
8.6K
on
on@tomondev·
@macastel3 The message ppl get: leave China and don't go back
English
2
0
1
449
on
on@tomondev·
@fi56622380 数字分身的社交网络?除了浪费token,有实际意义吗
中文
0
0
0
40
fin
fin@fi56622380·
其实上篇里有个很重要的idea,就是用数字分身做社交app,这一定是未来的一个趋势,谁最先看到这个机会做出来,谁就是下一个instagram 如果说AI 1.0的图像处理能力激活了自动驾驶的想象力,那么AI 2.0 LLM的语言能力则打开了数字分身的想象力,这可能会是一个能打破人与人之间信息壁垒的重要里程碑 最简单的例子,我可以根据自己的语料,生成一个自己去代表我在社交空间里和别人交互,以后每个人甚至是不需要Facebook页面的,每个人的页面就是这个人自己的数字分身,你可以和ta聊天,ta可以根据你们之间的关系来决定怎么回答你的问题 最重要的是,这个数字分身还可以向我汇报今天哪些人和我聊过天,都有一些什么有趣的故事,他们的反应是什么样的,这里能生成的有趣交互方式还会有非常多空间去探索 再延伸想象一下,在这个社交app内,我可以让我的数字分身代替我和其他人的数字分身社交,数字分身会保持我们自己的交互方式,会明白我最近想要知道什么信息,那么这种社交,会让人和人的距离拉近了太多太多,人和人之间的信息交流也方便了很多,不需要有破冰,不需要有酒局。这可能会再次大幅提速信息流通的效率,历史上第一次打破人与人之间的物理隔阂带来的信息孤岛 也许有人会问,用数字分身来社交,那么我作为本人增加的体验是什么呢 我认为最重要的两点体验,就是信息的交流和情感上的交流,这也是社交的本质属性 功利的信息交流角度,这是一种高效打通人和人之间信息流通的渠道,现在非常多信息和机会其实是很需要人和人之间的互动交流的,这样的互动交流其实是很低效而浪费时间的。而有了这种新的方式,你去调研一群人的想法,以后不需要一个一个走访了,大家的数字分身交谈完了,来个总结就行 从人类历史信息获取门槛的角度,印刷从10万门槛降低到1万,交通发展从1万降低到1千,互联网/搜索从1千降低到100,在线教育从100变成50,chatGPT把门槛50变成了20,数字分身则把门槛进一步降低,打通了历史上信息流通最大的障碍:人与人之间低效的交流,以及场合所限的物理隔阂 这也是我觉得从人类历史上来说数字分身社交发展必然趋势的原因:文明一定会向着打破信息交流在各种维度上的隔阂发展,一定会向着信息自由流通低门槛的方向发展,而人与人之间的信息交流隔阂是重大难题,数字分身是一个非常好的解决方式 即便没有这些功利的角度,数字分身社交也有情感上交流的用处,想象一下你有多少老朋友一年没有来往,甚至三五年没有来往了?你是不是很想去问候问候,但老朋友可能没空,或者也没有场合? 如果这时候我去和老朋友的数字分身打招呼,聊聊近况如何,聊聊想法,我是很乐意的,因为我知道这个数字分身会把和我聊天的内容返还给老朋友。别人的分身来拜访我,就当是catch up,问候一下许久未见的老朋友,我也会很高兴,因为我知道这个数字分身和本人不是完全隔绝的。甚至老朋友的分身拜访我的分身,我忙完了之后读一下聊天记录,我会有感觉是我已经和老朋友聊过了,互相问候过了。而这就是情感上的交流 无论是熟人社交,还是陌生人社交,数字分身都有很大的潜力可以挖掘,本质上是人新增了多个离线渠道来交流信息,比如我有个数字分身把我的笔记和想法读一读,就能代替我在群里交流很多想法和信息,而不需要我在群里吭哧吭哧打字 光游戏里用chatGPT做NPC agent(详见斯坦福的25人小镇),就是非常非常令人向往的场景和世界,更不用说把真人做成数字分身然后来社交了,这种社交app做出来绝对爆火(如果数字分身足够贴近本人),热度能把instagram锤成渣渣 如果AI1.0最大的应用之一是图像识别,标志性事件是imageNet作为北极星在最开始指引着所有人,并激发了自动驾驶的潜力,那么AI2.0最大的应用之一,一定是围绕着定制化的chatbot(比如特定领域的客服,游戏领域里的NPC,重建名人/亲人chatbot),特别是定制化的数字分身 数字分身能做的有多好,想象空间就能有多大,就像我在AI应用进程篇里说的,AI的应用发展的路径很大程度取决于场景容错率,社交娱乐这样容错率较高的场景一定是最先发展的,数字分身做的越来越好之后,严肃生产力的场景也能开始进入,比如数字分身代替你分享知识和开会交流,布道 这是一个全新的事物,有太多太多可以展开的话题(比如有什么玩法,发展路径如何,最先应用的人群,普通人如何产生输入,成本,产生的伦理问题,法律问题,进入生产力的路径,隐私和风险,数字分身产生的心态和心理问题,数字分身的技术路径,人机交互和机机交互,信息交流分级),有太大的想象空间,我可以再写二十篇不重样mind blowing的头脑风暴,今天就当是个序言篇,先起个头吧 LLM第一次让数字分身从梦想有了照进了现实的可能性,有兴趣想做这个idea的,也欢迎留言,这可能是全网最早讨论数字分身社交的地方 #LLM #社交 #AR #chatGPT #GPT #数字分身 #DigitalDoppelganger #DigitalTwin
fin tweet media
fin@fi56622380

为什么LLM/生成式AI重新为AR/VR打开了想象空间,AR/VR复兴浪潮新时代的割据格局会如何? 上一轮AR/VR兴起是因为对下一代人机交互界面有期待,衰落很大程度上因为有两点没有达到预期 1.交互方式并不方便,输入和理解context比较麻烦,仪式感比较厚重 2.内容不够丰富,生态发展有限,场景搭建成本高 那么LLM可以为AR/VR带来什么,如何解决AR/VR这两个瓶颈? 先说说交互,上一轮AR的操作输入方面其实一直是不太顺畅的,一指禅慢慢点,键位也有限 而LLM最大的优势正好在这个地方,作为一个超级通用接口,用做语音交互界面作为输入,甚至不需要语音,多模态解决交互方式,能准确即时的明白用户此时此刻的状态,让设备能随时明白用户的想法和当前场景context,不用每件事情都详细描述,迅速精确理解用户的意图 Meta之前发布的多模态模型,无疑是给AR/VR的发展奠定了一块厚重的基石,让声音不再只是被翻译成文字,让手势不再是毫无触觉温感 具体的说,眼球追踪,明白用户现在的注意力在哪里,用户直接说帮我解释一下这个,就能明白用户的意图。再加上多模态手势识别,交互速度也会提升不少 通过温度,语音的语气,语言,脸部表情体察用户的情绪,作为输入的反馈(不必手动点赞或者点踩),明白自己该罗嗦还是简洁,明白自己该如何交互 多模态在环境输入方面也有帮助,一个点亮想象力的地方,是当AR借助Meta的分割一切技术,多模态能轻松解读环境,而不只是以前单纯的解读有限的物体,想象一下这是AR眼镜历史上第一次能真正意义上深刻理解你周边的环境。比如可以作为生活辅助,随时告诉你到了什么场景该做什么,再比如看书的时候,可以随时让AR内置的LLM大脑给你总结这一面需要注意的重点,AR加教学也是有场景的 但只有当AR的人机交互效率超过键盘和屏幕时,才是进军生产力的时刻,在此之前都是不着边际的虚幻,这也是为什么上一轮AR/VR无论吹的多么天花乱坠,跟生产力相关的场景仍然很难搭边的原因(这一轮可能也很难) 另外一个更重要的方面,是整个AR/VR的内容丰富程度会因为Generative AI有巨大提升,这是更大的决定性因素 生成式AI把内容制造的成本降低了太多太多,可以预见内容生产的效率大大提升之后,解决内容不足的问题是水到渠成的事情,可以根据你的用户习惯,口味,生成定制化的身临其境的3D场景,甚至是现场根据你说的话来渲染场景,制造任意道具 上帝说,要有光,便有了光,这种感觉会非常奇妙,而且不会只是一时尝鲜新奇,因为每一次都会生成不一样的惊喜,就好像变身了一个哆啦A梦,说一句话就能生成自己想要的东西,穿越到想去的场景 这里的场景生成,也包括生成和你交互的所有NPC,每个人都会有自己的背景和个性,都有讲一天都讲不完的有趣故事,可以指定语料,图片,视频,定制生成一个,甚至是一群你想要的人,ta们会像真人一样和你交互,都是非常有意思的人,这种开放式世界的诱惑力将是巨大的 你将能在AR里体验三体里罗辑想象庄颜的样子并带进现实生活的情节,也可以进入一个根据小说生成的复刻版哈利波特的魔法世界,和所有AI生成的人物对话互动,完成历险 游戏将会重新定义,完全改写,不仅是因为AR/VR带来的浸入式,最关键的原因是游戏内容丰富了一百倍,包括任务/场景生成,NPC和玩家真实互动,因为成本降低了一百倍,枯燥的部分将大大减少,以后回头来看现在的游戏,就像现在看当年的游戏机的俄罗斯方块一样 连社交可能也会出现不一样的模式,比如AR内置chatGPT,和别人聊天时候相当于眼里有个提词器,再也不怕冷场了,随时告诉你接下来该说什么,情绪价值满分,社恐瞬间变成社牛 社交网络AR/VR更可以有新玩法,我可以根据自己的语料,生成一个自己去代表我在AR/VR空间里和别人交互,以后每个人甚至是不需要Facebook页面的,每个人的页面就是这个人自己的虚拟人,你可以和ta语音聊天,ta可以根据你们之间的关系来决定怎么回答你的问题,脸上的表情都可以生成。之后这个chatbot还可以向我汇报今天哪些人和我聊过天,都有一些什么有趣的故事,他们的反应是什么样的,这里能生成的有趣交互方式还会有非常多空间去探索 再延伸想象一下,我可以让我的虚拟人代替我和其他人的虚拟人社交,虚拟人会保持我们自己的交互方式,会明白我最近想要知道什么信息,那么这种社交,基本上会让人和人的距离拉近了太多太多,人和人之间的信息交流也方便了很多,不需要有破冰,不需要有酒局。这可能会再次大幅提速信息流通的效率,第一次打破人与人之间的物理隔阂带来的信息孤岛 电商营销也许会被重新定义,比如买衣服可以直接用AR/VR试穿(直接生成自己穿上的样子,通过虚拟镜子看),导购员在AR里现场讲解和通过生成演示,买东西可以直接用AR放在家里看效果,这些事情可能大家已经当成理所当然,不会有什么新鲜感了 这些在七八年前上一轮AR/VR热潮里夸大宣传当成概念片科幻片的东西,在LLM的出现后,终于变得不再遥不可及 社交,游戏,电商等,会以新的形式重新探索组合形式和表现形式,就像互联网时代,移动互联网人机交互改变时一样,AR/VR时代也会有新的组合形式 AR/VR本质上代表了一种新兴的人机交互模式,本身的复兴高度依赖于使用场景和生态/内容的繁荣,而这一块的短板,LLM会有极大的助力,让AR的内容丰富了太多,可以说重新定义了AR里的内容如何生成 有了LLM和没有LLM的AR/VR,是两种完全不同的事物。虽然这个进程还需要很久。生成NPC人物,根据语料克隆自己,场景识别解读,这些是已经可以实现的。还有不少仍然需要时间的部分,比如VR/AR高分辨率场景和道具的生成,多模态精确识别输入,但起码都在现有技术的展望讨论范围内了,毕竟十年软硬件加速六个数量级还是能带来一些东西的 即便AR/VR这一波没有真正走到像iphone那样的人机交互革命,也是大大的走进了一波。如果说AI 1.0激活了自动驾驶的想象力,那么AI 2.0则激活了AR/VR的想象力

中文
51
81
360
276.1K
on
on@tomondev·
@fi56622380 我覺得在推理端Nvidia未必有優勢,各家自研asic應該會有一定市場。
中文
1
0
0
989
fin
fin@fi56622380·
GTC 2026 preview: 从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里?SRAM会不会替代HBM路线? Nvidia如何整合groq到现有的产品线?是技术整合还是产品线整合?收购之后会给groq LPU产品带来怎样的升级? 这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始:groq本质上是一个compiler first走到极致的路线而不是SRAM first路线,SRAM路线只是副产品 相对于CPU针对通用workload的设计不同,AI 推理workload的特征在于确定性(deterministic)更高,基本没有data-dependent branching,tensor shape固定,memory access pattern确定 当Groq带着这个新特征重新审视 hardware-software interface,去问"什么应该在编译时做,什么应该在运行时做"。对于 AI 推理这个 workload,答案是:几乎一切都可以在编译时做 这就是Groq最疯狂而独特的地方:完全确定性编译器(fully deterministic compiler),compile精确到每个时钟周期,完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态,扮演一个全知全能的上帝,就可以避免硬件资源的浪费,而要做到这一点,必须要做到极致的确定性,也就是说,LPU里每一个计算,访问存储,通信的延迟,都需要精确到clock cycle,这对compiler来说是非常复杂的 AI workload更高的确定性,以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测),放大了VLIW的优点。那么下一步要提高效率和并行度,VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么,那指令格式当然就是一个宽指令里打包多个 指令会得到更高效率,这就是 VLIW 在groq的芯片里,不做乱序执行/speculation,大幅简化硬件(instruction dispatch仅占<3%面积),把复杂度移到静态compiler上,这正是VLIW思想的精髓 既然要让编译器做确定性的 cycle-accurate 调度,那么硬件里所有不确定的因素都要消除,比如arbiter,crossbar, replay,这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的,所以一切 cache 和 DRAM都是要砍掉的,cache也要换成scratchpad SRAM,因为cache replacement 策略是runtime决策的,不确定,必须换成软件控制的scratchpad,地址映射完全由compiler控制,保证确定性 通信也必须精确到cycle,发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你,请分配好内存”这类操作,而是同步地根据一份时间表严格执行SRAM 的分配和收发操作,这个时间表是compiler已经决定好的,硬件只需要执行就行了 完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟,这可能是groq确定性架构最被忽视的最大优势,毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing,这些是延迟波动的重灾区 这就是为什么说,groq其实并不是一个native SRAM first的技术路线,也不完全算是VLIW first的技术路线,而是compiler first的技术路线,更准确的说,完全确定性compiler是整个groq架构的核心 只是因为确定性compiler的原因,所以在核心decode阶段无法使用HBM/DRAM带来的不确定性,SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应: groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上? 不能 原因有两个: 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟,无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量,阻断bank访问,这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化,refresh的频率也会变化 2. 为了最大化利用DRAM带宽,controller会做很多优化,最典型的是batch scheduling:把同一个page的traffic都放在一起减少page miss,同时让读写尽可能接触更多的bank,以及尽可能减少read和write switching 这些动态优化都是real time发生的,基本不具备可预测性 3. system上对DRAM的优化,比如bank address hashing,让compiler静态提前定位某段data难度太大,落实cycle确定性的复杂度太高 其实这些不确定性也是能解决的,代价就是放弃大部分的优化策略,大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索,他们曾经做过一个确定性DRAM的专利,但工程上的实现是不现实的,这也是groq选择SRAM-only的核心原因之一。 所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题,而是这不是一个好的选择,因为这意味着HBM的efficiency和BW都要大打折扣,而且是结构性无法避免的损失。 这几乎意味着要用compiler去重写一个完整的memory controller,因为确定性dram本质上是compiler software defined memory controller,这个SW controller会非常难做,复杂度极高,而且每一代memory迭代都要大幅更新compiler里的结构,在工程资源上是不现实的。而且每一代DRAM,每一家DRAM 供货商都需要调试 ,这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 这两套体系对同一个问题给出了相反的回答:运行时的不确定性,Groq是compiler阶段直接消灭所有不确定性,Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT(单指令多线程)和硬件层线程调度器(Warp Scheduler)上。当一个warp因为访存而stall的时候,硬件warp scheduler立刻切换到另一个ready的warp继续执行,把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是:延迟是不可预测的,所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管,等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃:如果你不需要多warp轮转,你也不需要那么大的register file 实际在历史上,AMD从TeraScale(VLIW)到GCN(scalar SIMT)的架构转型,正是GPU领域一次大规模的VLIW→SIMT迁移:当workload变得不够可预测时,VLIW的compiler负担太重,应该把调度权还给硬件 所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线,是很难融合。这不是compiler能不能改的问题,是两套架构从第一性原理上就走了相反的方向。 所以说,Groq在Nvidia的唯一出路,就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后,就引出了第二个问题: Nvidia会给Groq带来什么样的新提升? 那么首先看看groq的瓶颈在哪里,简单的说 1. SRAM容量太小,无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了,那是CNN的时代,架构也是以CNN/LSTM为主要的target,当时测试benchmark都是ResNet50,SRAM容量是绰绰有余的 但是进入LLM时代,单个TSP计算卡230MB SRAM就显得不够看了,一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50,再加上因为上下文long context日益膨胀的KV cache,scale out就成了唯一的出路 于是一个70B模型的推理就需要576卡的集群,采用16个Pipeline并行 (PP)和36个tensor 并行 (TP),80层的大模型切成16级流水pipeline串行,每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行(PP),每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟,特别是PP延迟,占据了50%以上的总延迟,通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好,但是片上巨大的SRAM也挤压了compute的面积,导致prefill阶段耗时很高。融入Nvidia产品线之后,Groq产品完全可以扬长避短,只做自己擅长的decode部分,避免prefill阶段的短板 Nvidia带来的最重要的提升,可能是通过工艺的提升,以及hybrid bonding技术(类似AMD 3D V-Cache),扩大Groq LPU SRAM的容量,比如光是14nm到3nm的工艺提升,SRAM就能从230MB扩大到500MB,如果以后引入3D SRAM,容量还能翻倍 SRAM变大之后,原来576个LPU能完成的70B模型推理,现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行,pipeline interconnect延迟能直接减半。 所以Nvidia能带来的主要提升可能是,通过扩大SRAM的容量,减少scale out卡数,从而减少通信延迟时间,提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线,引出了第三个问题: SRAM路线会颠覆HBM路线吗? 不会。 SRAM路线本质上是用十倍的成本换几倍的速度,只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本 做一个简单的成本核算就清楚了 以LLAMA 70B模型为例,算上KV cache,Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于,那就按2000美元算),576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型,成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务,Groq的API定价确实便宜,但这是因为两个原因叠加: 第一,Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去; 第二,Groq自己是在亏钱运营的。2025年全年,Groq用LPU做大模型推理、对外卖API的业务,营收大约4000万美元,成本却是6000万美元,毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好,而是因为VC在补贴。 那么有人愿意为速度付溢价吗? 有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号:输出速度提升2.5倍,定价直接从$5/$25涨到$30/$150 per million tokens,6倍的价格,估计是牺牲了batch带来的速度提升。 所以这部分市场是真实存在的,SRAM路线在这里有它的生态位。 但这个生态位有多大?要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大: 推理的Prefill阶段对带宽要求低但算力要求高,推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高 (见附图) 对延迟敏感的推理workload,decode阶段对Memory bandwidth要求高,是SRAM路线的优势领域(图中红色线),主要是real time/interactive LLM:chat、copilot、agent这类需要实时响应的场景。 特别是reasoning model,SRAM路线带来的极致体验是很夸张的:H100要两三分钟跑完一reasoning,cerebras十秒就搞定了 这部分注重极致推理速度的市场有多大,我暂时没有找到一个详尽的调研,看到一个Hyperscaler的说法目前是10%左右 但是agentic flow workload,常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟,SRAM路线速度优势被削弱。 而更大体量的workload:batch inference、offline processing、ranking、recommendation对延迟没有那么敏感,throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车,装的人多(batch processing),每个人的车票钱很便宜,但是慢悠悠。 Groq/cerebras相当于是法拉利,极致的速度体验,但是装的人少,人均票价是大巴车十倍甚至以上。 长期来看,SRAM的成本劣势是结构性的,不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵,这是物理决定的,和工艺无关。而且SRAM scaling已经慢了下来,从N5到N3E,SRAM单元面积几乎没有缩小 即便是速度优势,SRAM路线的缺陷在于访问速度已经接近工艺极限,很难跨代提升。特别是HBM的速度每代都在指数上升的情况下,SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候,SRAM速度比HBM快了两个数量级简直是降维打击,但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s),再过十年,两者的速度可能拉不开差距了。 所以结论很清楚:SRAM不会颠覆HBM,但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看,随着HBM速度指数上升的背景下,SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里,也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形: 异构推理的新时代开启了 以后的推理workload本身已经分化,无法再用单一架构的最优点覆盖,体系结构最重要的是tradeoff,是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人,用多个架构形态去迎合不同种类的workload,就是异构计算的思想 2026 GTC的最大主题,就是异构推理的系统化。推理不会由单一硬件统一完成,而会被拆成 几个部分: 控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU,256块LPU集群 高吞吐/高并发batch decode,HBM GPU仍然是主力 以及可能会被忽略的ICMS:inference context memory storage, kv cache已经是核心基础设施,以前的异构更多是计算异构,现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工,更可能成为 inference stack 里两个不同的tier,小模型/低延迟/low batch都交给LPU,长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚,整个工作流程大概是,CPU做控制和调度,CPX Prefill 跑完得到几十 GB 的 KV Cache, 分配到 Groq LPU阵列SRAM,或者分配到HBM GPU,开启Decode流程 其实还有一种更大胆的猜想:如果引入speculative decoding,那么LPU完全可以跑通常尺寸较小的草稿模型,在LPU上速度极快,HBM GPU作为主力去验证草稿模型即可,这样的异构推理结构,可以让token rate大大加速,在某些场景下翻倍也是没问题的(比如代码任务模式固定,小模型很容易猜对语法,所以加速效果很好) 当 Nvidia 的眼光越过GPU,走向整个 Agentic 流程的系统级优化时,追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大,靠的是 GPU 架构和参数的单点暴力跃升;而现在,随着CPX,LPU,ICMS加入异构推理,它是从“数据中心即一台计算系统”的系统视角出发,从Agentic flow的角度做底层的异构编排。 无论是系统的复杂度,还是软件栈的工作量(Dynamo/ICMS/CMX),Nvidia 迈出的这一大步,直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始
fin tweet media
中文
30
77
286
173.4K
on
on@tomondev·
@Kasumi_cn_jp 日本那么烂,可以考虑回国
中文
1
0
5
683
夏弥 Kasumi
夏弥 Kasumi@Kasumi_cn_jp·
惨不忍睹啊 滞日黑子们还爱你们的川普爸爸不? 还高兴你们的高市姐姐和川普爸爸同框搭调得要命不? 被人卖了还帮人数钱,说的就是你们这些蠢货啊。 什么民主自由人权? 在2018年沙特记者卡舒吉证据确凿被沙特王储安排杀害肢解后川普还公开表示沙特是美国的重要战略盟友时,再蠢的人也该知道这些都是狗屁了。 只有利益啊。 川普为了他的个人利益,最终会搭上无数人原本安稳的生活。 不要急着抄底。自求多福吧,阿门。 (我在上周已经把所有股票清仓完毕)
夏弥 Kasumi tweet media
中文
30
5
183
60.4K
on
on@tomondev·
@janusch_patas Is there a way to export a 360 degree panorama in LichtFeld?
English
1
0
1
81
on
on@tomondev·
@lcayu 国内卖房都带家具吗?
中文
1
0
0
2.5K
Lanpice
Lanpice@lcayu·
这个房子明天就过户给别人了。 回来一看,心情还是有点复杂。 虽然自己也就住了一个星期,虽然亏损将近50万,但是看着这个基本还原成了我们当时自己参与设计的布置,还是有点感慨。 当时是半出租半自住的目的搞的,想着如果过几年回长沙的话,即使是按照目前的配置,也不用大改。 想着就算是出租也要让租客住得舒服些,没有随便搞些二手的家具家电,风格都不搭的应付。 即使准备卖房,行情在跌,也等到了租约到期后才挂出去。我想我应该算是中国好房东了吧? 新主人是个不到三十岁的男性,看他的样子是准备拎包入住了,房子还没过户呢,新被子就已经快递到门口了。他应该也比较中意吧。 准备结婚买房那时,虽然和老婆发生了很多不愉快,但已经成为过去,就以这个房子为句号。 在东瀛,继续开启新篇章,准备迎接我们即将出生的nico酱的到来吧。 小さい花や大きな花 一つとして同じものはないから NO.1にならなくてもいい もともと特別なOnly one 愿世界和平。 love & peace✌
中文
73
5
386
103.3K