Bread🍞

18.1K posts

Bread🍞

@himself65

AI Engineer at @FundaAI. All views are my own and do not constitute financial or investment advice. Not my employer's opinion.

Mountain View, CA Katılım Nisan 2015

250 Takip Edilen65.4K Takipçiler

Bread🍞@himself65·11h

@chenreason 特朗普说这是他分析基本面得出的🤪

中文

2.2K

对冲积鲸Reason@chenreason·11h

以下是特朗普今年1季度申报的 3642 笔股票交易记录的一些统计。他老人家真的是精力充沛。一边画线出题，一边自己答题。你们就研究吧...

中文

7.7K

Bread🍞@himself65·11h

Bun.js repo is now Anthropic's test env & playground

English

7.6K

Bread🍞@himself65·13h

@fi56622380 感谢分享

中文

1.2K

fin@fi56622380·13h

每年的Nvidia GTC大会，都会带来一些技术范式转新移概念，作为全业界的新技术标杆各家在GTC之后都会改roadmap去抄作业总有人问，AI芯片下一波结构性趋势转变的机会在哪里？这几个月范式转移带来的结构性转变机会之一，就是AI异构推理，而以Cerebras为首的SRAM路线初创，就这样走到了新趋势前沿 ------------------------ SRAM路线的公司生态位在哪里，得先看genAI推理的不同阶段workload特点主要分成三个部分： prefill：计算强度特别高，对memory带宽速度要求不高，对memory size要求中等偏高 decode阶段的attention部分：计算强度中等，对memory带宽速度要求特别高（对kv cache的反复读写），对memory size要求特别高，因为batch size的变大造成了kv cache的线性增长 decode阶段的FFN部分：计算强度中等，对memory带宽速度要求特别高（模型权重的反复读取），对memory size要求中等偏高（模型权重） SRAM路线的芯片特点也很清楚：除了memory带宽做到了极致，其他方面都是严重缺陷，本质上是用计算强度和memory size做不大这两个劣势，换取了极致的memory带宽速度 --------------------- 再来分别看AI推理的三个阶段，SRAM的适用度 prefill：SRAM计算强度无法做的很高，因为整个芯片上的SRAM面积占用太大，计算模块面积受限，所以prefill是弱项 decode阶段的attention部分：SRAM memory带宽要求高能达到，但是SRAM memory size很小达不到batch的要求，所以SRAM做attention只能满足一半需求 decode阶段的FFN部分：SRAM memory带宽要求高能达到，memory size要求中等，SRAM芯片通过互联通信的优化，能勉强解决memory size的问题，虽然代价很高，但ROI在某些场景下还是能算的过来的 ---------- 所以SRAM路线的加速器在AI异构推理的适用范围也很清楚： prefill部分别想了，性能垃圾，经济性垃圾 decode阶段的FFN部分，属于努努力加大成本还能够得着 decode阶段attention部分，kv cache对memory size要求太高，批量处理需求实现过于高昂，让Cerebras昂贵的230万美元一片，45片连成一起的奢侈的一亿美元的系统做成专属的超级VIP服务，完全是经济性灾难想象一下，一两个用户agent flow做coding任务花了1~2M context length，就得耗费230万美元一整个cerebras的44GB SRAM来做KV cache，不然速度就上不去，这是什么样的奢侈服务 ------------- 所以结论简直不能再明显了：Cerebras如果单独做全栈AI推理（prefill + decode ATTN + decode FFN），经济上是走不通的，没有未来的因为Cerebras成本是非常惊人的，即便是他们毛利率压的如此之低，每台 CS-3 系统的隐含租金还是要 $41.96/小时，是B200的差不多十倍租金，更不要说CS-3还得很多片连起来做LLM推理，租金要再乘以很多倍。这也是为什么SRAM路线经济效益如此差的原因，Nvidia在GTC已经清晰的指出了这一点（如图）。鼓吹SRAM路线以后取代HBM？那是痴人说梦，SRAM的scaling已经撞墙的情况下，每代芯片上的SRAM密度已经很难提升，在memory size这个维度上，HBM的指数型增长只会更加和SRAM拉开差距。即便是memory 带宽这个维度上，HBM也在指数型增长，缩小和SRAM的差距所以Nvidia的解法非常简洁而优雅：decode阶段的FFN部分交给SRAM路线，其他部分交给传统HBM GPU，把整个pareto frontier往右上角推进了很多 Rubin + LPX最高速度突破1000 token/s的同时，还能让整体throuhput仍然能保持一定的商业价值（这点很重要）。要知道如果在Blackwell要跑到400~500 token/s高速，只能同时处理很少的几个请求，这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s，也能保持一定的batch size(吞吐量)了，终于也能产生商业价值了，图里说在400 token/s的速度下，Rubin + LPX把吞吐提升了35倍，就是典型的token经济学，这个token高速度下，从Blackwell算提升了35倍的商业价值 --------------------- 这个解法在GTC公布标准答案之后，甚至更早在收购Groq的LPU之后，大家就已经开始做异构推理这个方向抄作业的努力了 Google的TPU找了Marvell做SRAM部分 Amazon AWS的trainium找了Cerebras做SRAM部分字节的AI asic找了高通做SRAM部分未来我们一定会看到越来越多类似的消息而这就是Cerebras在经济上可持续的最好道路：不要硬扛全栈AI推理，只做自己擅长的部分，在AI推理中和主流AI ASIC合作，争取能把自己SRAM芯片融入其他家的AI推理的decode FFN环节这也是为什么，Cerebras长期发展的关键在于和aws trainium的disaggregate inference能整合到什么程度如果只是目前爆出的Trainium做prefill和Cerebras做decode分离，技术上实现难度要小的多，但是这样经济上仍然不划算，只能是战略布局，能有一定的市场，但无法真正产生规模化竞争力而走Nvidia路线，深度整合两家优势，需要不少时间的技术整合，难度不小，但回报是值得的。解法一：trainium做prefill和decode attn，Cerebras做decode FFN。或者解法二：Cerebras做草稿模型，trainium做验证,。无论是哪种解法，市场竞争力都大太多了 -------------------- 和主流AI ASIC这样的合作方式，是减小了SRAM路线的市场规模TAM吗？不，这才是SRAM路线的公司唯一的长期可持续化增大市场规模的道路，因为AI异构推理趋势一定是未来，提前在这个增长的未来蓝图中找到属于自己的拼图位置，才能跟着市场一起增长 SRAM路线公司一旦融入任何主流AI ASIC的异构推理环节，身价都会暴涨，因为出货量的TAM完全不是一个数量级了不然的话，AI异构推理在token速度（不是throughput）这个维度上，一定会持续的蚕食SRAM路线的速度优势，SRAM路线AI全栈推理沦为昂贵的玩具是注定的结局

fin@fi56622380

复盘GTC 2026：Nvidia补上了短板，大幅削弱了各个AI 加速器 startup最大的优势--token速度回顾这篇GTC前瞻，方向预测和技术路线写的没啥大问题，最后Nvidia给出的解法比我想象的更为精巧：不仅是prefill放在GPU上，decode阶段Attention阶段也放在GPU上(这点没想到)，只把decode的MLP阶段放在LPU上做这和MatX的解决方法有异曲同工之妙，Weights放在SRAM上，KV cache放在HBM上这样的好处在于，Attention阶段需要巨量的KV cache(动辄几十上百GB)，本就是LPU SRAM无法承受的，把这部分放在HBM上是更合理的选择正应对了未来agentic flow里多轮对话上下文长，long context KV cache爆炸的趋势，即便是高batch并发数产生巨量KV cache也能让HBM容纳。随着上下文长度变长，所有的增量成本都在GPU HBM上，LPX是完全静态的不受影响，只和模型本身大小相关让LPU宝贵的128GB SRAM只承担FFN/MLP阶段的固定weights，而FFN阶段占GPU整个decode阶段的50%以上，如果是短context甚至能占比超过60%，FFN这部分在LPU上得到数倍大幅加速，是很划算的这样设计的部分drawback可能在于，一般transformer的decode阶段有很多层，比如以80层为例，那就是attention层和FFN要重复80次，也就是说，tensor要在GPU和LPU之间互相传递80次，虽然中间是low latency Nvidia Spectrum-X Ethenet，但生成一个token需要80次GPU-LPU往返延迟累加，这也是不小的损耗这样的新架构，按attention和FFN各占40%/60%来算，FFN阶段加速几倍，极限最高速度来说，整体加速能达到一倍以上（和Rubin NVL 72比）最高速度突破1000 token/s的同时，还能让整体throuhput仍然能保持一定的商业价值。要知道如果在Blackwell要跑到400~500 token/s高速，只能同时处理很少的几个请求，这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s，也能保持一定的batch size(吞吐量)了，终于也能产生商业价值了图里说在400 token/s的速度下，Rubin + LPX把吞吐提升了35倍，就是典型的token经济学，这个token高速度下，从Blackwell算提升了35倍的商业价值 ------- Nvidia补上了这块短板之后，对各个startup（比如Cerebras, d-Matrix, MatX, SambaNova）有什么影响呢？ startup最大的卖点就是特定场景下的速度优势，或者成本优势在大batch（多请求）场景下，GPU的算术密度(arithmetic intensity)越过ridge point之后利用率接近很高，成本/速度都对startup有显著的优势。所以这些startup能存活，最大的场景是：客户的workload集中在小batch、低延迟，速度极快，不在乎极高成本。GPU在这里效率极差，也达不到对应的token速度 Cerebras：极致的速度。wafer-scale尺寸巨大的SRAM(40GB)，消灭芯片间通信这个最大瓶颈，在小batch用户数量小的场景下token rate极高。但成本完全没有竞争力，一台CS-3系统价格230万美元，远超同等GPU集群，跟H100比是十几倍的成本换十几倍的速度。 d-Matrix ：高速度+小batch场景。in-memory compute减少data movement，在小batch decode下比GPU的利用率高，所以perf/watt在这个区间有一定竞争力。最近引入的3D stacked DRAM 是为了解决“更大的 reasoning model + 更高 token consumption”带来的容量/带宽继续扩展问题 SambaNova ：在企业私有化部署场景下，同时跑多个中小模型，GPU的利用率因为context switching损耗严重，SambaNova的RDU在这个场景下有更好的perf/dollar。本质上还是特定场景下的成本优势，通用速度优势并没有那么大 MatX：partitionable脉动阵列 + SRAM/HBM混合，和这次Nvidia的异构架构思路有相似的地方，最大的亮点是单芯片内实现Weights放在SRAM上，KV cache放在HBM上。但单芯片内省掉了前面提到的AFD的80层LPU-GPU芯片间通信，所以速度上仍然有一定优势，但Scalability可能不如GPU+LPU阵列了总之，在Rubin + LPX情境下，小batch、低延迟，速度极快这个以前的场景缺口补上了很多，各个startup的优势空间越来越缩小了 ------------- 前瞻里提到的speculative decoding用LPU做草稿模型，用GPU去验证，这样的加速幅度会非常大，这个猜想完全命中，这次在官方blog里有了浓墨重彩的一笔，专门用了一整个章节来介绍这个用法：“LPX generates draft tokens rapidly using its low-latency architecture. Rubin GPUs verify and finalize tokens efficiently” 另外一个前瞻里提到的CPX (Content Phase aXcelerator，一个专门为prefill的compute bound特性设计的计算模块)，似乎在这次GTC里完全消失了，一个字也没提，这是意味着CPX被彻底取消了吗？我觉得不一定目前的prefill和decode是disaggregated结构，也就是说一部分的GPU专门做prefill，另一部分专门做decode。CPX取代GPU做prefill从架构上来说是更合理的选择，可以加速prefill阶段，当然了会带来更高的成本，毕竟也是额外的一颗芯片 CPX和目前Nvidia的Rubin + LPX架构没有冲突的地方，仅仅只是简单的把做prefill的这部分GPU换成CPX而已，所以以后有速度优化需求的时候，也许CPX还会回来的 —------------------------------------------------------- 还是上篇的感慨，每一次计算范式的改变，半导体都会带来一波新的startup热潮，但当软件/应用形态逐渐收敛，最后还是变成了大厂通过收购把功能做大做全，参数做的更高，系统深度整合的更好更全面，成本更低，功耗和跑分更优秀，让startup慢慢失去独立生存的空间比如移动互联网时代早期，也是群雄并起，有做AP应用处理器，独立基带芯片的，ISP的，GPU的各种小公司。但最后的赢家，都是从到后来把GPU，ISP，modem全都做进SoC，并且完成系统级整合的异构计算平台。苹果收购PA semi的CPU，英飞凌的modem，掏空Imagination的GPU；高通收购ATI的mGPU，Atheros的Wifi，Nuvia的CPU，CSR的蓝牙/DSP，都是典型例子异构推理的复杂度越来越高，能做系统级整合的公司会更有优势，这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败)，收购Mellanox，收购groq，只是这个新历史轮回的开始

中文

211

66.2K

Bread🍞@himself65·13h

潮水退去的时候，才能看出谁在裸泳

中文

13.8K

Bread🍞@himself65·14h

@wquguru 谢谢你

中文

2.6K

WquGuru🦀@wquguru·17h

x.com/i/article/2055…

ZXX

538

76.2K

Bread🍞@himself65·15h

@ShanghaoJin 我抄了你的nok，你抄了我的cbrs，我们打平了

中文

5.3K

Herman Jin@ShanghaoJin·15h

勉为其难抄一下，我确实不对这个票不上头但想到居然能抄下你的底，还是让我忍不住开心下

Bread🍞@himself65

已破产

中文

68K

Bread🍞@himself65·15h

@kingluffywang 已浇给

中文

1.6K

北美王路飞@kingluffywang·16h

韩国的指数一路狂奔，快要结束了？

中文

11.5K

Bread🍞@himself65·21h

@atomicroad_ 已经不准了，因为卖call的已经被击穿了

中文

424

atomicroad@atomicroad_·22h

@himself65 上周就不准

中文

426

Bread🍞@himself65·22h

ZXX

9.3K

Bread🍞@himself65·23h

已破产

中文

98.6K

Bread🍞@himself65·1d

成本340

日本語

14.8K

Bread🍞@himself65·1d

@ShanghaoJin @dearbaibabybus 接着“ORCL什么时候卖”

中文

2.3K

Herman Jin@ShanghaoJin·1d

@dearbaibabybus 接着～～“ORCL能不能买”

中文

15.5K

高买低卖的神！@dearbaibabybus·1d

言出法随。

Leonard@LeonardG54535

@dearbaibabybus 转眼就启动了😂感觉买少了啊

日本語

36.6K

Bread🍞@himself65·1d

过了三百，就是六百

中文

17.1K

Bread🍞@himself65·1d

世纪大和解！

中文

106

55.3K

Bread🍞@himself65·1d

@arkuy99 苟利国家生死以岂因祸福避趋之！

中文

395

Go学长@arkuy99·1d

@himself65 面包兄也会吟诗几首

中文

2.6K

Go学长@arkuy99·1d

如果某一天 OPENAI 超越了 Anthropic 达里奥会被钉在耻辱柱上

中文

120

38.2K

Keşfet

@chenreason @fi56622380 @wquguru @ShanghaoJin @kingluffywang @atomicroad_ @dearbaibabybus @elonmusk