Bread🍞

18.1K posts

Bread🍞 banner
Bread🍞

Bread🍞

@himself65

AI Engineer at @FundaAI. All views are my own and do not constitute financial or investment advice. Not my employer's opinion.

Mountain View, CA Katılım Nisan 2015
250 Takip Edilen65.4K Takipçiler
Bread🍞
Bread🍞@himself65·
@chenreason 特朗普说这是他分析基本面得出的🤪
中文
2
0
10
2.2K
对冲积鲸Reason
对冲积鲸Reason@chenreason·
以下是特朗普今年1季度申报的 3642 笔股票交易记录的一些统计。 他老人家真的是精力充沛。 一边画线出题,一边自己答题。 你们就研究吧...
对冲积鲸Reason tweet media对冲积鲸Reason tweet media
中文
6
3
38
7.7K
Bread🍞
Bread🍞@himself65·
Bun.js repo is now Anthropic's test env & playground
English
2
0
35
7.5K
fin
fin@fi56622380·
每年的Nvidia GTC大会,都会带来一些技术范式转新移概念,作为全业界的新技术标杆 各家在GTC之后都会改roadmap去抄作业 总有人问,AI芯片下一波结构性趋势转变的机会在哪里? 这几个月范式转移带来的结构性转变机会之一,就是AI异构推理,而以Cerebras为首的SRAM路线初创,就这样走到了新趋势前沿 ------------------------ SRAM路线的公司生态位在哪里,得先看genAI推理的不同阶段workload特点 主要分成三个部分: prefill:计算强度特别高,对memory带宽速度要求不高,对memory size要求中等偏高 decode阶段的attention部分:计算强度中等,对memory带宽速度要求特别高(对kv cache的反复读写),对memory size要求特别高,因为batch size的变大造成了kv cache的线性增长 decode阶段的FFN部分:计算强度中等,对memory带宽速度要求特别高(模型权重的反复读取),对memory size要求中等偏高(模型权重) SRAM路线的芯片特点也很清楚: 除了memory带宽做到了极致,其他方面都是严重缺陷,本质上是用计算强度和memory size做不大这两个劣势,换取了极致的memory带宽速度 --------------------- 再来分别看AI推理的三个阶段,SRAM的适用度 prefill:SRAM计算强度无法做的很高,因为整个芯片上的SRAM面积占用太大,计算模块面积受限,所以prefill是弱项 decode阶段的attention部分:SRAM memory带宽要求高能达到,但是SRAM memory size很小达不到batch的要求,所以SRAM做attention只能满足一半需求 decode阶段的FFN部分:SRAM memory带宽要求高能达到,memory size要求中等,SRAM芯片通过互联通信的优化,能勉强解决memory size的问题,虽然代价很高,但ROI在某些场景下还是能算的过来的 ---------- 所以SRAM路线的加速器 在AI异构推理的适用范围也很清楚: prefill部分别想了,性能垃圾,经济性垃圾 decode阶段的FFN部分,属于努努力加大成本还能够得着 decode阶段attention部分,kv cache对memory size要求太高,批量处理需求实现过于高昂,让Cerebras昂贵的230万美元一片,45片连成一起的奢侈的一亿美元的系统做成专属的超级VIP服务,完全是经济性灾难 想象一下,一两个用户agent flow做coding任务花了1~2M context length,就得耗费230万美元一整个cerebras的44GB SRAM来做KV cache,不然速度就上不去,这是什么样的奢侈服务 ------------- 所以结论简直不能再明显了:Cerebras如果单独做全栈AI推理(prefill + decode ATTN + decode FFN),经济上是走不通的,没有未来的 因为Cerebras成本是非常惊人的,即便是他们毛利率压的如此之低,每台 CS-3 系统的隐含租金还是要 $41.96/小时,是B200的差不多十倍租金,更不要说CS-3还得很多片连起来做LLM推理,租金要再乘以很多倍。 这也是为什么SRAM路线经济效益如此差的原因,Nvidia在GTC已经清晰的指出了这一点(如图)。 鼓吹SRAM路线以后取代HBM?那是痴人说梦,SRAM的scaling已经撞墙的情况下,每代芯片上的SRAM密度已经很难提升,在memory size这个维度上,HBM的指数型增长只会更加和SRAM拉开差距。即便是memory 带宽这个维度上,HBM也在指数型增长,缩小和SRAM的差距 所以Nvidia的解法非常简洁而优雅:decode阶段的FFN部分交给SRAM路线,其他部分交给传统HBM GPU,把整个pareto frontier往右上角推进了很多 Rubin + LPX最高速度突破1000 token/s的同时,还能让整体throuhput仍然能保持一定的商业价值(这点很重要)。要知道如果在Blackwell要跑到400~500 token/s高速,只能同时处理很少的几个请求,这对GPU资源是巨大的浪费。 而现在就算是跑到1000 token/s,也能保持一定的batch size(吞吐量)了,终于也能产生商业价值了,图里说在400 token/s的速度下,Rubin + LPX把吞吐提升了35倍,就是典型的token经济学,这个token高速度下,从Blackwell算提升了35倍的商业价值 --------------------- 这个解法在GTC公布标准答案之后,甚至更早在收购Groq的LPU之后,大家就已经开始做异构推理这个方向抄作业的努力了 Google的TPU找了Marvell做SRAM部分 Amazon AWS的trainium找了Cerebras做SRAM部分 字节的AI asic找了高通做SRAM部分 未来我们一定会看到越来越多类似的消息 而这就是Cerebras在经济上可持续的最好道路:不要硬扛全栈AI推理,只做自己擅长的部分,在AI推理中和主流AI ASIC合作,争取能把自己SRAM芯片融入其他家的AI推理的decode FFN环节 这也是为什么,Cerebras长期发展的关键在于和aws trainium的disaggregate inference能整合到什么程度 如果只是目前爆出的Trainium做prefill和Cerebras做decode分离,技术上实现难度要小的多,但是这样经济上仍然不划算 ,只能是战略布局,能有一定的市场,但无法真正产生规模化竞争力 而走Nvidia路线,深度整合两家优势,需要不少时间的技术整合,难度不小,但回报是值得的。解法一:trainium做prefill和decode attn,Cerebras做decode FFN。或者解法二:Cerebras做草稿模型,trainium做验证,。无论是哪种解法,市场竞争力都大太多了 -------------------- 和主流AI ASIC这样的合作方式,是减小了SRAM路线的市场规模TAM吗? 不,这才是SRAM路线的公司唯一的长期可持续化增大市场规模的道路,因为AI异构推理趋势一定是未来,提前在这个增长的未来蓝图中找到属于自己的拼图位置,才能跟着市场一起增长 SRAM路线公司一旦融入任何主流AI ASIC的异构推理环节,身价都会暴涨,因为出货量的TAM完全不是一个数量级了 不然的话,AI异构推理在token速度(不是throughput)这个维度上,一定会持续的蚕食SRAM路线的速度优势,SRAM路线AI全栈推理沦为昂贵的玩具是注定的结局
fin tweet media
fin@fi56622380

复盘GTC 2026:Nvidia补上了短板,大幅削弱了各个AI 加速器 startup最大的优势--token速度 回顾这篇GTC前瞻,方向预测和技术路线写的没啥大问题,最后Nvidia给出的解法比我想象的更为精巧:不仅是prefill放在GPU上,decode阶段Attention阶段也放在GPU上(这点没想到),只把decode的MLP阶段放在LPU上做 这和MatX的解决方法有异曲同工之妙,Weights放在SRAM上,KV cache放在HBM上 这样的好处在于,Attention阶段需要巨量的KV cache(动辄几十上百GB),本就是LPU SRAM无法承受的,把这部分放在HBM上是更合理的选择 正应对了未来agentic flow里多轮对话上下文长,long context KV cache爆炸的趋势,即便是高batch并发数产生巨量KV cache也能让HBM容纳。随着上下文长度变长,所有的增量成本都在GPU HBM上,LPX是完全静态的不受影响,只和模型本身大小相关 让LPU宝贵的128GB SRAM只承担FFN/MLP阶段的固定weights,而FFN阶段占GPU整个decode阶段的50%以上,如果是短context甚至能占比超过60%,FFN这部分在LPU上得到数倍大幅加速,是很划算的 这样设计的部分drawback可能在于,一般transformer的decode阶段有很多层,比如以80层为例,那就是attention层和FFN要重复80次,也就是说,tensor要在GPU和LPU之间互相传递80次,虽然中间是low latency Nvidia Spectrum-X Ethenet,但生成一个token需要80次GPU-LPU往返延迟累加,这也是不小的损耗 这样的新架构,按attention和FFN各占40%/60%来算,FFN阶段加速几倍,极限最高速度来说,整体加速能达到一倍以上(和Rubin NVL 72比) 最高速度突破1000 token/s的同时,还能让整体throuhput仍然能保持一定的商业价值。要知道如果在Blackwell要跑到400~500 token/s高速,只能同时处理很少的几个请求,这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s,也能保持一定的batch size(吞吐量)了,终于也能产生商业价值了 图里说在400 token/s的速度下,Rubin + LPX把吞吐提升了35倍,就是典型的token经济学,这个token高速度下,从Blackwell算提升了35倍的商业价值 ------- Nvidia补上了这块短板之后,对各个startup(比如Cerebras, d-Matrix, MatX, SambaNova)有什么影响呢? startup最大的卖点就是特定场景下的速度优势,或者成本优势 在大batch(多请求)场景下,GPU的算术密度(arithmetic intensity)越过ridge point之后利用率接近很高,成本/速度都对startup有显著的优势。 所以这些startup能存活,最大的场景是:客户的workload集中在小batch、低延迟,速度极快,不在乎极高成本。GPU在这里效率极差,也达不到对应的token速度 Cerebras:极致的速度。wafer-scale尺寸巨大的SRAM(40GB),消灭芯片间通信这个最大瓶颈,在小batch用户数量小的场景下token rate极高。但成本完全没有竞争力,一台CS-3系统价格230万美元,远超同等GPU集群,跟H100比是十几倍的成本换十几倍的速度。 d-Matrix :高速度+小batch场景。in-memory compute减少data movement,在小batch decode下比GPU的利用率高,所以perf/watt在这个区间有一定竞争力。最近引入的3D stacked DRAM 是为了解决“更大的 reasoning model + 更高 token consumption”带来的容量/带宽继续扩展问题 SambaNova : 在企业私有化部署场景下,同时跑多个中小模型,GPU的利用率因为context switching损耗严重,SambaNova的RDU在这个场景下有更好的perf/dollar。本质上还是特定场景下的成本优势,通用速度优势并没有那么大 MatX:partitionable脉动阵列 + SRAM/HBM混合,和这次Nvidia的异构架构思路有相似的地方,最大的亮点是单芯片内实现Weights放在SRAM上,KV cache放在HBM上。但单芯片内省掉了前面提到的AFD的80层LPU-GPU芯片间通信,所以速度上仍然有一定优势,但Scalability可能不如GPU+LPU阵列了 总之,在Rubin + LPX情境下,小batch、低延迟,速度极快这个以前的场景缺口补上了很多,各个startup的优势空间越来越缩小了 ------------- 前瞻里提到的speculative decoding用LPU做草稿模型,用GPU去验证,这样的加速幅度会非常大,这个猜想完全命中,这次在官方blog里有了浓墨重彩的一笔,专门用了一整个章节来介绍这个用法:“LPX generates draft tokens rapidly using its low-latency architecture. Rubin GPUs verify and finalize tokens efficiently” 另外一个前瞻里提到的CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块),似乎在这次GTC里完全消失了,一个字也没提,这是意味着CPX被彻底取消了吗? 我觉得不一定 目前的prefill和decode是disaggregated结构,也就是说一部分的GPU专门做prefill,另一部分专门做decode。CPX取代GPU做prefill从架构上来说是更合理的选择,可以加速prefill阶段,当然了会带来更高的成本,毕竟也是额外的一颗芯片 CPX和目前Nvidia的Rubin + LPX架构没有冲突的地方,仅仅只是简单的把做prefill的这部分GPU换成CPX而已,所以以后有速度优化需求的时候,也许CPX还会回来的 —------------------------------------------------------- 还是上篇的感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始

中文
21
48
209
65.3K
Bread🍞
Bread🍞@himself65·
潮水退去的时候,才能看出谁在裸泳
中文
8
0
36
13.7K
Bread🍞
Bread🍞@himself65·
@ShanghaoJin 我抄了你的nok,你抄了我的cbrs,我们打平了
中文
0
0
24
5.3K
Herman Jin
Herman Jin@ShanghaoJin·
勉为其难抄一下,我确实不对这个票不上头 但想到居然能抄下你的底,还是让我忍不住开心下
Bread🍞@himself65

已破产

中文
20
2
70
67.4K
北美王路飞
北美王路飞@kingluffywang·
韩国的指数一路狂奔,快要结束了?
北美王路飞 tweet media
中文
12
0
20
11.4K
Bread🍞
Bread🍞@himself65·
已破产
中文
20
0
52
97.9K
Bread🍞
Bread🍞@himself65·
成本340
日本語
10
0
17
14.8K
Bread🍞
Bread🍞@himself65·
过了三百,就是六百
中文
10
0
43
17K
Bread🍞
Bread🍞@himself65·
世纪大和解!
中文
21
0
106
55.2K
Bread🍞
Bread🍞@himself65·
@arkuy99 苟利国家生死以 岂因祸福避趋之!
中文
4
0
1
394
Go学长
Go学长@arkuy99·
如果某一天 OPENAI 超越了 Anthropic 达里奥会被钉在耻辱柱上
中文
32
1
120
38.2K