Freedom

17 posts

Freedom

Freedom

@Freedom12282341

Katılım Ekim 2025
36 Takip Edilen7 Takipçiler
Freedom
Freedom@Freedom12282341·
@fi56622380 fin哥,想请教下现在业内inference集群hbm bandwidth 和 capacity utilization大概是什么水平? 未来会不会出现hbm硬件变大变快,瓶颈反而卡在实际utilization一直提不上去上
中文
0
0
0
15
fin
fin@fi56622380·
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
fin tweet mediafin tweet media
fin@fi56622380

回顾2025年半导体市场,真的是有太多太多精彩的故事,最大的主题就是: AI需求驱动导致半导体基建的估值体系重构 + 产业链的价值分配重写 从2024年开始,半导体基建正在飞速吞噬整个IT产业利润,SP500里半导体净利润EPS在IT行业里占比,在两年时间从不到20%上升了到了40%,而且还在呈加速上升姿态 半导体整体前瞻利润率从2023年的25%已经升到了2025年11月的43%,已经明显超过了几个互联网巨头的平均利润率,这也印证了半导体利润率超过互联网会是新常态。整个IT产业的利润分配,流向半导体的比例越来越大。 要知道,就算是20~22年的半导体芯片荒,短缺如此严重,半导体的利润率和整个IT利润分配也没有显著增长 这就是故事的上半篇:AI需求驱动导致半导体基建的估值体系重构,不再是互联网时期的基建从属地位 ------------------------ 这个现象背后的逻辑是商业模式随着技术特性的变迁: 互联网时代,每次请求的网络和算力成本,边际成本极低,scaling的效果极好,分发的边际成本几乎为零 在AI时代,这个互联网时代分发边际成本几乎为零利于scalable的特性遭遇了根本性的重大挑战:且不说训练成本从此不是一次性开销而是年年增长,就客户的AI推理请求而言,由于inference scaling成为共识,加上垂直领域仍然需要更大规模的旗舰模型来保持竞争力,推理的成本不会随着硬件算力价格的通缩而同步降低 互联网企业从前的最大成本只有OPEX尤其是SDE人工成本,而现在,互联网公司历史上第一次像半导体厂foundry那样背上高折旧成本的资产负债表,商业模型恨不得要慢慢从“流量 × 转化率”部分转向“每 token 毛利”了 简单的说,互联网时代到AI时代的成本分布,在人力成本opex的基础上又加上了沉重的硬件/算力成本capex(财报里占比:MSFT 33%, Meta 38%)。 上个时代的互联网公司+CSP+SAAS是收租行业里的大赢家,而AI时代,算力(半导体/芯片折旧)成为了新的收租行业,整个IT行业的利润分布发生了剧烈的重新分配(EPS利润流向半导体从20%升到40%而且持续攀升中),这就是半导体基建估值体系重构最重要的原因 --------------- 半导体高利润率的新常态趋势能持续多久? 目前的高溢价来自于前期不计成本的军备竞赛造成的半导体订单积压过多 但很显然,hyperscalers都不愿意当冤大头,都在试图自建ASIC降低成本,那么可以从2030年远期的算力分布来回看这个问题 长线来看,openai已经明牌了标准答案,10GW Nvidia,10GW ASIC,6GW AMD,其他hyperscaler划分比例有类似考虑 比如说,推理端希望ASIC >50%,GPU里再细分的话,AMD和NV(legacy)对半分。训练还是得NV占大头,60%+,剩下的自研ASIC和AMD对半分 2030年按60%推理,40%训练比例划分,算下来NV 38%, ASIC 39%, AMD 23%,跟openAI比例是几乎完全一致的,算是一个标准答案参考值 当然了,微软,Amazon,Google,Anthropic这几家里AMD的比例会比这个标准答案中枢/参考值明显低一些,xAI则是没有ASIC只有Nvidia+少量AMD AMD的风险在于,当2030年再往后的更长期,CSP的in house ASIC越来越成熟(微软除外),推理端ASIC占比可能越来越高,很难有incentive新买入大量GPU了,除非卖的足够便宜 最近风头正劲的TPU呢?Meta是不是要转向TPU?对Nvidia的利润率影响大吗? 实际上,Meta今年capex72B,明年capex110B,未来六年capex平均值可能达到160B附近,而Meta 6年10B的TPU订单算下来年均只有1.6B,而且购买的是TPU云服务,并不是裸TPU 也就是说,Meta这笔TPU订单只占到Meta未来6年capex的1%,并没有严肃的考虑大规模部署,可能只是作为和Nvidia讨价还价的手段而已 另外从Meta最近几个月的招聘广告来看,也并没有看到任何TPU engineer方面的招聘,不像 Anthropic那样从五月就招一堆TPU kernel engineer,十月才宣布大规模采购TPU做训练 所以说,不管原因是diversify供货商,还是给自研ASIC延迟做退路,还是因为AMD的MI350X延迟,Meta买TPU基本上只有一个考虑:增加买Nvidia GPU的议价权,但顶多只有推理份额里能讨价还价,实际效果很有限,对Nvidia利润率影响也很有限。 要知道,22年加密货币熊市矿难的时候,NVDA库存上升到了198天,利润率只是从65%回撤到了56%,算上PE/宏观双杀股价才从300变100,现在一直供不应求,利润率没道理能降下来 再加上TPU v8设计过于保守(没用HBM4),Kyber rack的Rubin方案会比TPU v8的TCO更好,到头来最后还是得继续依赖Nvidia,很难议价。只要Nvidia继续保持这样的大踏步前进,竞争对手其实要跟上还是不容易的。 总之,一方面,全产业链瓶颈,比如cowos扩张都很谨慎,供不应求的状态还能持续多年。 另一方面,AI变现的利润曲线和硬件投入曲线存在“时间错配”,应用端的增长曲线会落后几年,只要这个应用端和基建端的增长曲线的时间错位依旧存在,半导体在IT行业的利润分配就会一直占优势。 从OpenAI的到2030年的投入曲线来看,这个时间错位至少要持续到2030年附近。也就是说半导体行业的超级扩张期带来的在IT产业利润划分的主导地位,目前看至少能持续到2030年 而半导体高利润率可能会维持的更长远一些,因为从互联网时代一次性基建属性变成了现在的收租基建属性 --------------------------------------------------- AI 不是只养活了 GPU,而是在用算力预算把“能把电变成 token 的每一环”都抬了一轮,从内存,存储,互联,光纤,电力,储能…..等等 上半篇讲完了“半导体吞噬IT利润”,那么下半篇讲的就是“AI算力价值溢出效应(Spillover Effect)重塑半导体内部格局”:GPU算力增长 -> 内存/存储/互联/CPU瓶颈 -> 溢出效应 -> 结构性机会 2025 年更有趣的故事,是巨大的行业红利在半导体内部怎么诞生结构性新机会,比如说,一个super cluster需要几个数据中心互联,光纤互联的长度需要上百万mile这个级别,这就是新机会 半导体产业链的结构性趋势带来的新机会,最典型的例子就是内存(DRAM/HBM)和存储(SSD),HBM的需求增长太夸张,连带挤压DDR4/5产能,直接让以周期性为标志的内存行业甚至喊出了“周期不存在”了,Hynix因为在HBM上领先,甚至都开始憧憬起了几年后年利润1000亿美元,妥妥一个万亿市值的公司 这两个板块背后,是结构性趋势的转变:AI workload从训练逐渐往推理延申,推理比例越来越大。 而推理是一个非常纯粹的吃内存带宽速度(memory bound)的事情,可以说带宽速度=token/s。模型尺寸越来越大,以及上下文context length的增加,对内存的尺寸要求也相应增大,导致了内存的需求激增:推理即内存 下一代的的GPU/ASIC内存已经成了暴力美学,配备的内存size之巨大,是三年前无法想象的,回看22年H100的80GB简直像个玩具,这才几年就增长了十倍: Nvidia Ultra Rubin - 1024GB HBM Qualcomm AI200 - 768GB LPDDR AMD MI400x - 432GB HBM 内存的另外一个潜在的爆发点在端侧,也就是手机/PC/汽车/机器人的端侧LLM,这两年主流的手机旗舰机已经从6GB升级到了8GB/12GB/16GB,提前为可能的端侧LLM生态做准备,毕竟手机算力下一代就能达到150TOPS量级,妥妥的桌面级,非常暴力 潜力上来说,端侧内存升级是比云端内存增量要更大的市场,毕竟端侧终端device的数量太惊人了,每年都是billion级别,一旦端侧LLM生态繁荣起来,内存用量翻倍轻而易举,针对端侧低功耗内存/存算一体的各种设计都会跟上 但端侧genAI的软件生态,似乎明显滞后,一直比我想象的进度要慢,可能是因为这方面还处于摸索期,并没有云端那么确定的ROI,厂商们在投入上都很谨慎,我在23~24年时候看好27年,可能还是太乐观了 互联网->移动互联网用了10~15年,端侧genAI/LLM可能也需要7~10年,可能得等云端ROI开发的差不多了,边际收益下降了,才能轮得到端侧genAI/LLM拿到开发资源,跑通端侧ROI。 -------------------------------------- 另一个2025年半导体内部结构性转变的故事是NAND存储,特别是企业级eSSD硬盘 结构性趋势来源也是同一个,AI workload的推理需求越来越大。内存红利也外溢到了SSD存储,甚至HDD存储,因为内存不够用就用高速SSD作为多级缓存 主要逻辑是AI推理过程中内存溢出KV cache offloading到下一层SSD存储,以及向量数据库检索/indexing,都在增加SSD存储的需求 Micron财报说的精准又直白:“AI inference use cases such as KV cache tiering and vector database search and indexing, are driving demand for performance storage.” 至于为什么存储价格在第四季度才爆发,这需要区分一下合约价格和现货价格,合约价格涨幅会温和一些,就算是最紧缺的企业级eSSD合约Q4上涨大概25%。而当NAND产能在2025年被合约慢慢的吃光,现货的价格就造成了观感上强烈的冲击,一个月上涨50%以上。 另一个未经验证的逻辑是多模态的爆发,特别是AI图片和AI视频的需求爆发,也会加剧存储的短缺,我觉得这条线只能说未来可期,但目前的视频/图片精细程度,可能还不到当年GPT3的水平,要达到出圈效果还需要一些时日。 ------------------------ 那么下一步还有什么趋势转移带来的半导体结构性的机会呢 那么就要先看下一步AI推理端的需求趋势是什么,毫无疑问,agentic flow的比例会越来越大,2025并不是year of agent,而是一个decade of agent 从CPU视角去看agentic workload,routing和工具处理都在CPU上,如果把常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU,甚至CPU能耗也超过了总能耗的40% Agentic AI目前是一个CPU瓶颈更多的事情,在 agentic 框架里,CPU 是永远在忙的总指挥orchestrator, 很可能会成就CPU需求的新一波回暖 AMD 2025年Q2财报(8月5日),Lisa Su明确表述了这一现象:​"In particular, adoption of agentic AI is creating additional demand for general-purpose compute infrastructure, as customers quickly realize that each token generated by a GPU triggers multiple CPU-intensive tasks." "agent AI的采用正在对通用计算基础架构产生额外的需求,因为客户很快就意识到GPU产生的每个令牌都会触发多个CPU密集型任务。" ​Q3 财报里Lisa又明牌了一次CPU TAM increasing due to Gen AI. "Many customers are now planning substantially larger CPU build outs over the coming quarters to support increased demands from AI, serving as a powerful new catalyst for our server business." Nvidia也是把agent flow视为CPU需求,GB200/300 架构配置的CPU比例也比以往大的多,36颗 Grace CPU : 72颗 Blackwell GPU,直接达到了1:2的水平,AMD的路线则是用1~4个256核的EPYC去服务MI400系列72~128个GPU 以后的硬件架构,一定会往优化agent workload方向发展,比如agent task graph的调度和load balancing,CPU/GPU协同micro-batching 算力上的比较,说不定以后也会摆脱现在的纯GPU token rate比较,转向整个系统级全栈agentic benchmark比较. -------------------------- 半导体结构性转变带来的机会同时,下一步,可能也会带来一些意想不到的次生效应 云端AI数据中心需求爆发,造成内存和存储的暴涨,给消费电子的成本带来了很大压力,在2026年,这也许会演变成消费电子产业潜在的黑天鹅 PC厂商最近的股票大跌,也是这个原因。HP已经说了要减少内存配置,暗示要把PC重回8GB内存+256GB存储的时代了。 DRAM内存和存储再这么涨下去,可能会出现很离谱的情况:内存/存储现货价格比CPU和GPU还要更贵。尴尬的是,这可能直接延缓了消费电子期望的AI PC的进程,毕竟大内存是更有利AI PC的表现力的。 夸张的说,每个PC厂商和手机厂商的员工,甚至是消费电子厂商的员工,都应该买入存储和内存,作为职业风险对冲 明年年初开始,安卓阵营的内存以及存储成本要压不住了,三星,小米的手机售价都提高的话(美国市场现在已经提高不少了),利好最大的就是苹果 苹果的内存产能,nand产能都是专属长约锁价特供的,顺带还把Kioxia给坑了好多不涨价产能,导致苹果的成本优势进一步扩大,苹果全球手机销量市占率增长可能会非常可观,接下来一阵子可能会是iphone辉煌的时光。 ----------------------- 2025年半导体市场真的是太多精彩的故事了,Nvidia/AMD/TPU和各家hyperscaler的恩怨情仇引得各路下注的吃瓜群众心情跌宕起伏。 HBM/内存厂商吃到了memory-bound的红利,NAND厂商意外收获了KV cache的溢出效应,CPU在沉寂近十年后,可能会因agent orchestration再次回到增长叙事的中心 不再是Nvidia/AVGO几家算力厂商独大,而是AI workload算力价值溢出后的每一次演进,从训练到推理,从文本到多模态,从单模型调用到agentic flow,都在重写产业链的价值分配。 云端AI的繁荣正在挤压消费电子的生存空间——当PC厂商被迫讨论重回8GB时代,苹果却因供应链优势坐收渔利。这场算力军备竞赛的次生效应,可能在2026年以意想不到的方式重塑整个消费电子格局 半导体的故事不再是一条单线,而是一张持续自我重构的网。而 2025 年,大概只是合纵连横的第一回合

中文
62
310
1K
550.7K
Freedom
Freedom@Freedom12282341·
@fi56622380 @ShanghaoJin 可能scaling law走到尽头,模型能力瓶颈的时候,应该就是倒逼frontier lab 范式转移的时候
中文
0
0
0
87
fin
fin@fi56622380·
@ShanghaoJin 这个问题我也没有想的特别清楚 transformer的kv cache架构消失是什么时候,消失之后会是什么格局 x.com/fi56622380/sta…
fin@fi56622380

AI半导体终局推演2026(II) 目前的topic 为什么HBM在结构上很可能会摆脱传统周期性,进入成长周期性?HBM的升级节奏会如何发展? (tiktok节奏,size和speed交替换代升级) 这会给HBM的供应和需求市场带来什么样子的capex成本结构变化?Capex内战里为什么HBM会持续占优势? 为什么Nvidia未来最大的竞争对手不是AMD,是Samsung,Hynix,Micron? AI推理时代,这个依赖HBM指数增长的GPU架构路线进化路线,会不会停止?什么时候停止? 那么以后DDR和NAND呢?有没有摆脱周期性的可能? AI Semiconductor Endgame Scenario Analysis 2026 (II) Current Topics Why is HBM structurally likely to break away from traditional cyclicality and enter a growth-cycle paradigm? How will the upgrade cadence of HBM evolve? (A “TikTok-style” rhythm: alternating generational upgrades in capacity/size and speed.) What kind of changes will this bring to the capex cost structure in the HBM supply and demand markets? In the internal “capex wars,” why will HBM continue to dominate? Why will NVIDIA’s biggest competitors in the future not be AMD, but rather Samsung Electronics, SK hynix, and Micron Technology? In the era of AI inference, will the GPU architectural path—highly dependent on exponential growth in HBM—eventually come to a halt? If so, when? What about DDR and NAND going forward? Do they have any possibility of breaking free from traditional cyclicality?

中文
3
1
11
8.9K
Herman Jin
Herman Jin@ShanghaoJin·
稍给存储泼点冷水都会被喷,最后说一次 我知道best DJ coming at 1:30am,但我睡眠已经很差了,不买让我睡不着的票 DDR是无差异化commodity(HBM不是)完全跟着JEDEC标准,且出货仍占绝对大头。这轮上涨毛利暴增是因wafer无差别切换的DDR margin同涨 我质疑卖commodity公司不能拿增长估值 如果要给非周期估值意味着你在假设: 1. 需求“永远”无穷大 2.或者HBM在wafer以后“永远”反占绝大头 记住这不是2030,而是永远,所以我不会看着PE觉得便宜 至少以上两个点现在都是很争议吧?这就是我敢死多光、死多CPU GPU,但确实把不准存储
Herman Jin@ShanghaoJin

But if you want to buy SNDK/MU now You are basically showing up to the party at 1:30 AM

中文
52
35
424
131.8K
Freedom
Freedom@Freedom12282341·
@bboczeng 你的风格很像币圈喊单的kol
中文
0
0
0
5
勃勃OC
勃勃OC@bboczeng·
谢谢你的分析,其实现在半导体板块的逻辑很简单:全部买入,全部all in、长期持有,2030 做不到这点的不要问我还能不能上车 行业情况都摆在这里了,自己为自己负责
Macro_Lin | 市场观察员@LinQingV

$SNDK SanDisk前副总裁深度访谈:AI时代,HDD和NAND到底谁赢 该文已同步更新至公众号:Macro林的市场观察 2026年5月5日,华尔街研究机构Bernstein发布了一份专家访谈纪要。主持人是Bernstein的美国IT硬件分析师Mark Newman,对面坐的是Robert Soderbery,一个在存储行业干了几十年的老兵。他曾经是西部数据(Western Digital)的执行副总裁,直接负责旗下SanDisk闪存业务,管过云存储、消费存储和AI存储三条线。一年多前SanDisk从西部数据分拆独立上市,Soderbery也离开了公司,但他对这个行业的理解仍然是一线水平。 这场对话持续了大约一个小时,话题只有一个。在AI时代,数据中心里的两种主要存储介质,HDD(机械硬盘)和NAND(闪存/固态硬盘),到底谁会赢? 两个主角各自是什么 在进入正题之前,需要理解HDD和NAND各自是什么,以及它们为什么会存在竞争关系。 HDD,也就是机械硬盘,是一种已经存在了几十年的存储设备。它的内部有高速旋转的金属盘片,一个机械臂在盘片表面来回移动,通过磁性记录的方式读写数据。你可以把它想象成一台微型唱片机。HDD的优势是单位容量的价格极低,同样花一块钱,HDD能存的数据量远远多于其他任何存储介质。它的劣势是速度慢,因为机械臂需要物理移动到数据所在的位置才能读取,就像你要在一张唱片上找到某首歌,针头得移过去。 NAND闪存是固态硬盘(SSD)的核心组件。它没有任何机械部件,数据存储在半导体芯片里,通过电信号读写。没有机械运动意味着速度快很多,功耗也低,体积也小。但NAND的单位容量价格一直比HDD高出好几倍。 在过去几十年里,数据中心的选择逻辑很简单。需要快速访问的数据放在SSD上,需要大容量长期存储的数据放在HDD上。就像你家里可能有一个SSD笔记本电脑用来日常工作,同时有一个大容量移动硬盘用来备份照片和视频。 传统数据中心的简单世界 Soderbery回忆说,在AI出现之前,传统数据中心的存储架构非常简单,就是一个两层结构。 第一层是"计算盘",小容量的企业级SSD,通常是2TB、4TB或8TB,安装在服务器里,负责操作系统运行和频繁访问的数据。第二层是"存储盘",大容量的近线HDD(nearline HDD),专门用来存放不需要频繁读取的海量数据。 如果按数据总量(bit)来衡量,HDD占了压倒性的80%到85%,NAND只占15%到20%。但如果按花的钱来算,两者其实差不多,因为HDD虽然存得多但单价便宜,NAND虽然存得少但单价贵。 在这个时代,也有人尝试过在两者之间做文章。比如,有没有可能做一种大容量SSD,既有SSD的性能又能替代HDD的存储功能?西部数据和其他厂商确实在研发更大容量的SSD,但老实说,市场反应很冷淡。hyperscaler(超大规模数据中心运营商,比如谷歌、亚马逊、微软、Meta这些公司)的态度很直接。我为什么要花好几倍的价钱买SSD来做HDD能干的活?性能溢价不值那个钱。 这种格局维持了大约三到三年半。然后AI来了。 AI改变了一切 大约两三年前,AI数据中心开始大规模建设。最初的存储配置基本上复制了传统数据中心的模式。GPU服务器旁边放一些计算用的SSD,再配上大量近线HDD做数据存储。看起来跟以前没什么区别。 但很快,人们发现了一个问题。 AI的工作流程跟传统计算不一样。在数据真正被送进GPU运算之前,有大量的"预处理"工作需要完成。原始数据需要被清洗、转换、向量化、做embedding(一种把文字或图像变成数字向量的操作,方便AI模型理解)。这些预处理任务对存储的性能要求极高,你需要以很快的速度读取和写入大量数据。而传统的近线HDD,那个靠机械臂一点一点挪动的设备,根本跟不上这种节奏。 这就像你原本用拖拉机拉货拉得好好的,突然有人告诉你现在需要用赛车的速度送快递。拖拉机(HDD)的装载量大没错,但速度跟不上。 于是,hyperscaler开始疯狂采购大容量的企业级SSD。不再是以前那种2TB、4TB的小盘,而是32TB、64TB、128TB,甚至256TB的超大容量SSD。这些盘既有SSD的高性能,又有接近HDD的大容量。Soderbery说,从bit的角度看,AI存储市场几乎在一夜之间被大容量SSD主导了。新增的业务里,60%到70%的NAND采购都是冲着这些大容量企业级盘去的。 更有意思的是连锁反应。传统数据中心的人看到AI那边用上了这些大容量SSD,也开始琢磨,这东西是不是也能用在我们这边,替代掉一部分HDD?于是整个存储行业的架构从原来简单的"两层"(小SSD + 大HDD)演变成了"三层"。小容量高性能SSD做计算盘,大容量企业级NAND做中间层,近线HDD仍然兜底做最大容量的存储。 涨价把一切冻住了 故事如果只讲到这里,似乎NAND会一路高歌猛进,逐步蚕食HDD的地盘。事实上,2025年夏天之前,很多人确实是这么想的。 当时NAND的价格相对HDD大概是4到5倍(以每TB美元计算)。在这个价差下,一些hyperscaler开始做TCO(总拥有成本)计算。如果把NAND的功耗优势、空间节省、性能提升都算进去,在某些"边界场景"里,用SSD替代HDD的总成本其实差不多甚至更低。比如一块128TB的SSD,体积只有手机那么大,但它替代的可能是一整个机柜的HDD。你省下的机房面积、电费、冷却成本,加起来可能够得上SSD多出来的采购价了。 Soderbery估计,hyperscaler普遍愿意切换的TCO门槛大约在2到3倍。最积极的(比如Meta那种更看重应用性能、对成本不那么敏感的)可能在3倍就会动手。大部分市场要到1.5倍左右才会大规模迁移。当时4到5倍虽然还不够,但趋势是在往3倍走的。 然后NAND价格暴涨了。 涨幅远超预期,从5倍直接飙到了20到25倍。原本大家期待的"从5倍走向3倍"的故事,变成了反方向跑。所有正在进行的HDD-to-SSD切换计划全部停下来了。超过20倍的价差,不管你怎么算TCO,都不可能让SSD替代HDD变得经济。 Newman在对话中用了一个很形象的表述。两边(NAND和HDD)的需求都在增长,只是NAND那边多吸走了一些边界场景的需求。但现在价格涨成这样,这些边界需求又会往HDD回流一些。Soderbery同意,会有一些回流,但幅度不会很大,因为两边产能都紧张,能调配的空间有限。 为什么NAND价格会涨这么离谱 要理解这次涨价,需要知道NAND行业一个关键的技术特征。NAND有"代际"之分。 NAND闪存的制造跟其他半导体一样,有不同的技术代际(generation/node)。你可以把它理解为一栋楼的层数。早期的NAND是平面的(2D),后来进入3D时代开始往上叠层,从几十层到100多层到200多层。目前在产的大概是第5代到第8代3D NAND,第9代即将投产。 问题在于,不同代际的NAND能做的事情差别很大。AI数据中心要的那种大容量高性能盘,128TB、256TB的QLC SSD,只有最新的两三代技术节点才能造。老一代节点可以造消费级SSD、手机存储芯片这些,但做不了AI要的大容量企业盘。 而最新节点的产能在整个NAND行业里只占大约30%到35%。为什么这么少?因为NAND厂商过去几年的日子太难过了。Soderbery直言不讳地说,NAND是一个连续亏损或低利润了5到9年的行业。厂商手里没有足够的钱把所有老产线都升级到最新节点。每一次"代际升级"(从N代到N+1代),全行业加起来需要投入大约500亿美元,换来的是总bit产出增加约50%。在长期亏损的状态下,没有哪家公司有胆量和资金连续做两三轮这样的投资。 所以实际情况就是,AI需求像洪水一样涌向最新节点的产能,但这部分产能只有行业总量的三分之一。竞价(bidding war)极其激烈,价格自然暴涨。而老节点的产能虽然闲着一些,但做不了AI要的产品,帮不上忙。 这就好比全城只有三家五星级酒店,突然来了一个万人规模的国际会议。三家酒店的房间瞬间被订光,价格涨到天上。旁边有大量的经济型酒店空着房间,但会议主办方要求必须住五星级,经济型酒店再便宜也没人住。 Soderbery还补充了一个容易被忽略的细节。NAND工厂几乎永远在满负荷运转。这跟HDD不同,HDD工厂还有一些产能弹性可以调节。NAND的制造流程决定了你要么100%开着,要么就别开了,没有中间态。所以面对突发的需求暴增,NAND行业几乎没有短期应对能力。 HDD为什么死不了 聊到这里你可能会想,既然NAND这么供不应求,HDD应该很快就被淘汰了吧?恰恰相反,HDD目前的处境可能比很多人想象的要好得多。 价格是最直接的因素。20倍的价差意味着在纯存储场景里,HDD仍然有压倒性的成本优势。不管AI多火,世界上仍然有海量的数据需要低成本存储,视频监控、备份归档、冷数据存储,这些场景对性能要求不高,对成本极度敏感。NAND在这些场景里完全没有竞争力。 然后是HDD行业的竞争格局。全世界现在只剩下两家半HDD制造商。西部数据(WDC)、希捷(Seagate),再加一个东芝(Soderbery暗示东芝的状态不太稳定,不算一个完整的竞争者)。这是一个典型的寡头垄断市场。 Soderbery非常坦率地说了寡头市场的运行逻辑。核心就是不轻易扩产。只要你不扩产能,供给就永远偏紧,价格就能维持在一个让股东满意的水平。而HDD恰好有一个天然的"护城河"让这条规则更容易执行。HDD的制造技术极其复杂。 很多投资人以为HDD是"低科技"产品,毕竟里面有一个会转的盘片和一根机械臂,看起来很原始。但Soderbery指出,HDD的研发难度其实非常高。盘片上用来存储数据的磁性颗粒需要用溅射设备逐层沉积,精度在纳米级别。磁头的设计涉及精密的物理和材料科学。新一代的HAMR技术(热辅助磁记录,用激光加热盘片表面来提高存储密度)更是把复杂度提到了新高度。他透露了一个有趣的事实。在西部数据内部,HDD研发团队里的博士数量比NAND团队还多。 这种技术复杂性意味着扩产不是写一张支票就能搞定的事。你需要建新的无尘车间、采购精密设备、培训技术团队、调试良率,整个周期很长,充满不确定性。再加上HDD行业刚刚经历了近十年的供过于求(直到AI出现之前),厂商有深刻的心理创伤,绝不想重蹈覆辙。 第三个有利因素是成本曲线的变化。过去NAND的每bit成本下降速度远快于HDD,所以人们普遍认为NAND迟早会便宜到跟HDD差不多的水平,届时HDD就没有存在的意义了。但现在情况有了变化。NAND的成本下降正在放缓。3D NAND靠堆叠层数来降本(从2D变成3D),但层数越高技术难度越大,就像盖100层的楼远不止花50层楼两倍的钱。Soderbery说NAND可能还有"最后一次挤柠檬"的机会,再往后就需要全新的方法来降本。与此同时,HDD这边,HAMR技术带来的成本下降速度正在加快,已经跟NAND的成本下降速度接近甚至略快。两条曲线正在收敛,但从"HDD更便宜"的方向收敛,这意味着NAND要追平HDD的价格需要的时间比之前预计的更长。 Newman在对话中总结了一个关键判断。展望2030年到2032年,NAND的成本或许能降到HDD的3倍以内,届时以类似的毛利率定价的话,会开始看到从HDD向SSD的份额迁移。但即便到了那一步,实际的替代也需要巨额资本投入(前面提到的1500亿美元量级),而且NAND厂商从经济回报角度看没有太大动力去做这件事。与其花1500亿去抢HDD的低毛利市场,不如把钱投到AI存储这个高毛利方向。 所以结论是,HDD短期内死不了,中期(到2030年前后)也很难被NAND大规模替代。两者会在各自擅长的领域共存相当长一段时间。 一场改变游戏规则的合同革命 这场对话里最让人意外的部分,可能是关于LTA(长期协议,Long-Term Agreement)的讨论。 在传统的存储行业里,买卖双方的关系极度不对等。所谓的"长期协议"其实是一种单方面的安排。客户对供应商说,你给我留这么多产能,按这个价格卖给我。如果市场好、我需要货,我就买;如果市场不好、价格跌了,我就不买了,没有任何违约成本。但反过来,如果我需要货而你供不上,我会想尽一切办法从你手里榨出来。 Soderbery毫不客气地评价这种关系。双方之间没有任何信任可言。hyperscaler在这种博弈中处于绝对的强势地位,供应商只能被动接受。在这种环境下,存储厂商根本不敢做长期的资本投入,因为你不知道三年后客户是不是还会买你的货。而没有资本投入,产能就上不去;产能上不去,整个行业就在周期性的供需失衡中反复震荡。 但现在情况正在发生本质变化。SanDisk(从西部数据分拆出来的独立公司)刚刚宣布了5份"NBM"(新商业模式,本质上就是新一代的长期协议),核心条款包含总购买承诺约420亿美元,合同期限3到5年,其中约110亿美元是财务担保(financial guarantee)。 什么叫"财务担保"?简单来说就是违约金。如果客户签了合同说要买420亿的货,但到时候不买了,其中110亿是要真金白银赔出来的。这跟以前那种"我想买就买、不想买就不买"的单方面合同完全不同。 Newman做了一个数学测算来帮助理解这个合同的保护力度。110亿除以420亿大约是25%。也就是说,假设市场价格暴跌50%,客户理论上可以选择违约、交110亿罚金、然后按市场价重新采购。但这样做的话,客户的实际购买成本相比合同价只下降了约25%(因为罚金抵消了一部分降价收益)。换句话说,这份合同在市场剧烈波动时给供应商提供了一个相当厚的缓冲垫。 Soderbery还补充了一个实际操作层面的考量。即使客户违约了,它还是得继续买NAND,你不可能因为合同纠纷就不建数据中心了。所以违约更可能的结果是重新谈一个价格更低的新合同,把剩余的购买量延长到更多年。就像一个棒球运动员合同到期前想续约,他会接受一个年薪稍低但年限更长的新合同。对供应商来说,虽然价格降了,但锁定了更长期的业务。 这种双向LTA对整个行业的意义是深远的。有了客户的购买承诺和财务担保,NAND厂商第一次有了足够的信心去做长期资本规划。你知道未来3-5年有多少收入是"锁定"的,你就敢去投资建新产线、升级制程节点。这解决了存储行业长期以来最根本的结构性问题,资本投入的不确定性。 同样的趋势也在HDD领域发生,而且HDD甚至走在前面。HDD的长期协议模式更早成熟,已经包含了购买承诺。这进一步巩固了HDD寡头格局的稳定性。 对投资人来说,这意味着过去给存储公司估值时最大的折价因素,强烈的周期性,正在被系统性地削弱。如果三分之一的营收已经被合同锁定,这家公司的盈利可预测性就更接近一家软件公司而非传统的周期股。市场愿意给的估值倍数自然会上升。 QLC:大容量SSD背后的技术 前面提到AI数据中心需要128TB、256TB的超大容量SSD。能造出这种容量的盘,靠的是一种叫QLC的技术。 理解QLC需要从NAND闪存的基本原理说起。NAND的最小存储单元是一个微型晶体管(早期叫"浮栅晶体管",现代3D NAND多用"电荷捕获"结构,但原理类似),你可以把它想象成一个微型水桶。数据以电荷的形式存储在这个桶里。根据桶里电荷量的不同,可以区分出不同的数据值。 最早的NAND(SLC,single-level cell)每个桶只区分两种状态,有电荷和没电荷,对应二进制的0和1,也就是每个单元存1 bit数据。后来发展出MLC(2 bit/cell,4种状态)、TLC(3 bit/cell,8种状态)。而QLC是4 bit/cell,需要在每个单元里区分16种不同的电荷水平。 16种电荷水平意味着每两种之间的差异非常微小。这对制造精度和读写电路的灵敏度提出了极高的要求,差一点点就会读错数据。所以QLC是一种"非常难"的技术。Soderbery说各家厂商的表现差异很大。他认为SanDisk和合资伙伴Kioxia做得比较好,三星遇到过一些困难,美光起步领先但也有波折。 QLC的好处是每个单元存的bit多了,同样面积的芯片能放下更多数据,这才能造出128TB甚至256TB的超大容量盘。但有一个容易被忽略的"水分"。当NAND厂商宣传自己的bit增长率是20-30%时,其中相当一部分来自QLC"每个单元多存一个bit"的数学效果,真正来自制程进步(比如把3D NAND从200层叠到300层)的增量要低得多。这意味着NAND行业的真实技术进步速度可能没有表面数字显示的那么快。 边缘计算:一个对NAND有利的变量 对话中有人问了一个很好的问题。如果AI计算从集中式的云数据中心向分布式的边缘(edge)转移,对HDD和NAND的格局会有什么影响? Soderbery的回答非常明确。任何从云到边缘的迁移都对NAND有利。原因是边缘设备通常受到物理空间、功耗和散热的严格限制。你不可能在一个信号塔基站或者一辆自动驾驶汽车里塞进一堆HDD,太大、太重、太耗电、对震动太敏感。SSD在这些维度上全面碾压HDD。而且边缘应用往往更偏重性能(比如实时推理),这又是NAND的强项。 他甚至说,AI数据中心虽然是大容量SSD需求的主力,但这种SSD技术一旦成熟,会变成一种通用能力,惠及所有市场参与者。AI客户受益,传统企业客户同样受益。 HBF:一个值得关注的早期方向 对话的后半段讨论了一个比较前沿的概念,HBF(High Bandwidth Flash,高带宽闪存)。 理解HBF需要从HBM(High Bandwidth Memory,高带宽内存)说起。HBM是目前AI GPU旁边最核心的存储组件,本质上是把多颗DRAM芯片堆叠在一起,通过超宽的数据通道连接到GPU。HBM速度极快但容量有限且价格极高(DRAM比NAND贵得多)。 HBF的想法是用NAND芯片代替DRAM芯片,采用同样的堆叠和封装技术,造出一种容量更大、成本更低的高带宽存储。为什么这在AI场景下可能行得通?因为AI推理(inference)的工作模式有一个特殊之处。它主要是在"流式读取"大量模型参数,把一大堆数字(模型的权重系数)从存储里按顺序搬到GPU里,GPU处理完一批再搬下一批。这种访问模式不需要频繁的随机读写。 NAND的致命弱点正好是随机读写慢、延迟高。但如果你只是做流式顺序读取,NAND一旦"启动"起来,持续带宽其实相当快。Soderbery的比喻是,NAND就像一辆启动慢但跑起来很快的卡车,如果你的任务就是在高速公路上一车一车地运货(流式读取),卡车的慢启动并不是问题。 HBF把NAND的这个特性跟HBM的封装技术结合起来,理论上可以提供比HBM大得多的容量(因为NAND密度远高于DRAM)、低得多的成本,同时保持足够的带宽来满足AI推理的需求。如果真的成功了,它可能成为GPU旁边一个新的存储层级,甚至可以用来做KV Cache(一种在大语言模型推理过程中缓存中间结果的机制,目前主要用HBM实现,但HBM容量不够用是一个大痛点)。 NVIDIA的黄仁勋在今年CES上专门提到了Vera Rubin平台上用NAND做存储层的设想,被市场解读为NVIDIA给HBF这个方向做了背书。 不过Soderbery的判断是,HBF目前仍然处于非常早期的阶段,需要证明功耗、性能和可靠性。他说自己离开SanDisk已经一年多了,对HBF背后的市场力量没有深入研究。但他对NAND在AI pipeline中找到更多高性能应用持乐观态度。即使HBF本身不成功,相关的技术探索也有可能催生其他有价值的产品形态。 Pure Storage和VAST Data:两种不同的突围路径 对话中还讨论了两家在这场存储变革中表现突出的公司。 Pure Storage的做法很有意思。Soderbery说,其他所有存储厂商都沿用了HDD时代的硬盘外形规格(form factor),那种标准尺寸的方盒子,可以插进服务器的硬盘槽里。Pure Storage直接抛弃了这个传统,从零开始设计专门为NAND优化的平台和模块,他们叫它"直接闪存模块"(Direct Flash Module)。这样做的好处是不受传统外形尺寸的限制,可以在给定空间里装入更多NAND容量,同时优化散热和功耗。 更巧妙的是Pure Storage的商业模式。它跟hyperscaler的合作方式是,Pure负责出模块和软件,hyperscaler直接从NAND厂商(比如SanDisk/Kioxia、三星、美光)买NAND颗粒,然后自己组装。相当于hyperscaler把存储系统设计这种复杂的工程工作外包给了Pure,而NAND的采购权仍然留在自己手里。Soderbery认为这是一个很好的架构,Pure确实凭借这个模式在hyperscaler客户群里获得了相当的牵引力。 VAST Data走的是另一条路。Soderbery认为VAST最大的贡献是它是最早一批真正理解AI数据预处理workload本质的公司。VAST搭建了一套能够扩展到超大容量的分布式存储架构,在高容量SSD和AI系统之间加了一个高性能缓存层(他提到VAST用了老一代Intel的高性能存储介质来做这个缓存)。虽然做分布式存储阵列的创业公司有几百家,但VAST是其中执行力最强的之一。Soderbery说他不太清楚VAST是怎么从那么多竞争者中胜出的,但事实是它做到了。 NAND厂商什么时候才会大举投资扩产 这可能是整场对话中投资人最关心的问题之一。 Soderbery的回答可以总结为一个词,谨慎。 他解释了NAND厂商的心态。这些公司(三星、SK海力士、美光、Kioxia/SanDisk)在过去5到9年里经历了极其痛苦的低谷期,长期亏损或微利,反复被客户的单方面LTA摆布,在不确定的环境下做资本投入然后遭遇需求崩溃。这些伤疤不会因为最近几个季度价格暴涨就突然愈合。 从务实的角度看,NAND行业目前追求的是大约20-30%的年bit增长率。实现这个增长主要靠两条路。一是"代际迁移",把产能从老节点转移到新节点,新节点的单位面积bit产出更高。二是QLC带来的数学效果,每个单元多存一个bit。这两条路都不需要大规模新建产线,只需要在现有厂房里替换设备。 真正的大规模capex(资本支出),比如新建工厂、大幅扩充晶圆产能,需要满足好几个前提。价格要持续维持在高位好几个季度,让厂商相信这回不是一次性脉冲。长期协议要真正落地执行,给厂商足够的需求可见性。设备要能买得到(主要是光刻和刻蚀设备,供应商的产能也有限,交货周期本身就有一年左右)。 Soderbery估算了时间线。从厂商下决心投资开始,设备到位大约需要一年,调试到量产状态还需要几个月,整个周期大约15个月。也就是说,即使今天所有NAND厂商同时决定全力扩产,新产能最早也要到2027年下半年才能释放。而实际上不可能所有人同时做这个决定。 NAND价格往哪里走 在对话的最后几分钟,Newman问了每个投资人都想知道的问题。NAND价格会跌吗? Soderbery的判断是,短期内会有一些需求压缩来缓解价格压力。具体来说,消费端已经在做调整。手机厂商本来计划出1TB存储版本的手机,现在改成256GB了;PC厂商也在缩减SSD容量。这种消费端的"缩水"是对NAND高价的自然反应,会释放一部分产能给数据中心端。 中期来看,随着新产能逐步释放(主要是代际迁移带来的产出提升),价格会向正常的性价比曲线回归。但Soderbery明确说,他不认为会出现断崖式暴跌。他的判断是NAND价格正在进入一个"新常态",基准水平会比过去几年高。除非AI整体出现泡沫式崩溃,这个基本走势不太会改变。 房间里没被提到的那个人:长江存储 Soderbery在整场对话中没有提到长江存储(YMTC),但任何关于NAND行业供给格局的讨论,都绕不开这家公司。 长江存储是中国唯一具备量产能力的3D NAND厂商,总部在武汉。2022年底被美国列入实体清单,无法采购美系先进制造设备(Lam Research、Applied Materials、KLA等)。外界一度认为这会严重限制它的技术迭代和产能扩张。但实际情况跟预期相反。 长江存储在被制裁后加速推进设备国产化,摩根士丹利估计其国产设备采用率已达45%,远高于国内其他晶圆厂。它的Xtacking架构已经迭代到3.0甚至4.0版本,出货的232层TLC芯片通过双层堆叠实现了294层等效密度,技术水平接近国际一线。更值得注意的是,三星已经与长江存储签署了混合键合(Hybrid Bonding)技术的专利授权协议,用于制造400层以上的下一代V10 NAND。SK海力士预计也会跟进签署类似协议。 产能端的扩张速度更加惊人。2026年一季度,长江存储的收入已超过200亿人民币,同比翻倍,全球NAND产出份额已突破10%,逼近全球第三。武汉三期工厂的建设也在提速,原定2027年量产的计划可能提前到2026年下半年。产业链消息称,在今年建成一座新厂的基础上,长江存储还将再建两座工厂,全部投产后总产能将翻一番以上,目标是到2026年底占据全球NAND供应量的15%。 这对前面Soderbery描述的整个行业逻辑构成了一个重要的变量。 Soderbery的核心论点之一是NAND厂商集体谨慎,不愿大举扩产,所以供给瓶颈会持续。但长江存储的行为模式完全不同。它不受传统NAND厂商的资本纪律约束,背后有国家级的产业政策支持和融资渠道(IPO也在筹备中,估值1600亿到3000亿人民币),扩产的决策逻辑跟三星、美光、SanDisk/Kioxia完全不在一个框架里。 当然,长江存储目前的产品结构以消费级和中国国内市场为主。AI数据中心要的那种128TB、256TB的最新节点QLC企业级SSD,长江存储短期内还不具备大规模供应能力。设备限制也确实会制约它在最先进制程上的追赶速度。 但它的产能增量对全球NAND市场的价格传导机制是实实在在的。即使长江存储的新增产能主要流向消费级市场,也会释放其他厂商(三星、美光等)在消费级上的产能,使它们可以把更多资源调配到企业级和AI存储方向。这种间接效应可能比直接竞争更快触达市场。分析师普遍认为,如果长江存储的月产能突破20万片晶圆(WSPM),就具备了影响全球NAND价格走势的能力。 对于Soderbery描述的那个"NAND供给持续紧张、价格维持高位"的预期来说,长江存储的扩产节奏是最大的不确定性之一。它可能让NAND价格的"新常态"来得比Soderbery预期的更早、水位更低。而如果NAND价格因此下降,前面讨论的那个TCO crossover(hyperscaler愿意从HDD切换到NAND的2-3倍门槛)就会重新变得可及,整个HDD vs NAND的竞争格局也可能随之松动。 这场对话告诉我们什么 回到最初的问题。在AI时代,数据中心存储的竞争中,HDD和NAND谁会赢? Soderbery给出的答案是,两者都会赢,但赢的方式和赢的领域不同。 NAND赢在AI数据中心的核心存储需求上。大容量企业级SSD是AI基础设施的刚需组件,没有替代品。HBF等新方向可能进一步扩大NAND在AI架构中的角色。长期协议的双向化让NAND厂商的商业模式更加健康。 HDD赢在大容量低成本存储领域。20倍的价差让任何替代尝试都不经济。寡头格局和扩产摩擦力保护了HDD厂商的利润率。成本曲线的收敛速度比预期慢,意味着HDD还有很长的生命周期。 多数人没想到的是,AI的爆发反而在短期内巩固了HDD的地位,而非加速它的消亡。因为AI把NAND的产能和注意力全部吸走了,NAND厂商没有余力去做"替代HDD"这件事。而HDD厂商则趁机收紧供给、提升利润率,活得比以前更滋润。 这场看似简单的"HDD vs NAND"竞争,实际上是一个关于技术经济学、产业结构和资本配置的复杂故事。它提醒我们,在真实的产业世界里,技术上的优势不等于市场上的胜利。经济账、产能约束、行业结构和参与者的心理状态,共同决定了竞争的走向。

中文
23
18
156
42.1K
Freedom
Freedom@Freedom12282341·
@fi56622380 大佬如何看像Cerebras/Groq 这类sram centric inference对 这个路线呢? 我感觉对hbm需求有影响,但应该只在某些特定场景,毕竟太贵了
中文
1
0
1
2.1K
Freedom
Freedom@Freedom12282341·
@fi56622380 大佬会有新的memory硬件比hbm量大便宜并能达到hbm大部分的性能吗? 比如sndk在吹的hbf
中文
2
1
1
3.3K
Freedom
Freedom@Freedom12282341·
@fi56622380 老师,arm,intel,amd,大厂ascis,在agent CPU时代你觉得是大家齐头并进还是一家独大?那家会赢?
中文
0
0
0
69
fin
fin@fi56622380·
回顾2025年半导体市场,真的是有太多太多精彩的故事,最大的主题就是: AI需求驱动导致半导体基建的估值体系重构 + 产业链的价值分配重写 从2024年开始,半导体基建正在飞速吞噬整个IT产业利润,SP500里半导体净利润EPS在IT行业里占比,在两年时间从不到20%上升了到了40%,而且还在呈加速上升姿态 半导体整体前瞻利润率从2023年的25%已经升到了2025年11月的43%,已经明显超过了几个互联网巨头的平均利润率,这也印证了半导体利润率超过互联网会是新常态。整个IT产业的利润分配,流向半导体的比例越来越大。 要知道,就算是20~22年的半导体芯片荒,短缺如此严重,半导体的利润率和整个IT利润分配也没有显著增长 这就是故事的上半篇:AI需求驱动导致半导体基建的估值体系重构,不再是互联网时期的基建从属地位 ------------------------ 这个现象背后的逻辑是商业模式随着技术特性的变迁: 互联网时代,每次请求的网络和算力成本,边际成本极低,scaling的效果极好,分发的边际成本几乎为零 在AI时代,这个互联网时代分发边际成本几乎为零利于scalable的特性遭遇了根本性的重大挑战:且不说训练成本从此不是一次性开销而是年年增长,就客户的AI推理请求而言,由于inference scaling成为共识,加上垂直领域仍然需要更大规模的旗舰模型来保持竞争力,推理的成本不会随着硬件算力价格的通缩而同步降低 互联网企业从前的最大成本只有OPEX尤其是SDE人工成本,而现在,互联网公司历史上第一次像半导体厂foundry那样背上高折旧成本的资产负债表,商业模型恨不得要慢慢从“流量 × 转化率”部分转向“每 token 毛利”了 简单的说,互联网时代到AI时代的成本分布,在人力成本opex的基础上又加上了沉重的硬件/算力成本capex(财报里占比:MSFT 33%, Meta 38%)。 上个时代的互联网公司+CSP+SAAS是收租行业里的大赢家,而AI时代,算力(半导体/芯片折旧)成为了新的收租行业,整个IT行业的利润分布发生了剧烈的重新分配(EPS利润流向半导体从20%升到40%而且持续攀升中),这就是半导体基建估值体系重构最重要的原因 --------------- 半导体高利润率的新常态趋势能持续多久? 目前的高溢价来自于前期不计成本的军备竞赛造成的半导体订单积压过多 但很显然,hyperscalers都不愿意当冤大头,都在试图自建ASIC降低成本,那么可以从2030年远期的算力分布来回看这个问题 长线来看,openai已经明牌了标准答案,10GW Nvidia,10GW ASIC,6GW AMD,其他hyperscaler划分比例有类似考虑 比如说,推理端希望ASIC >50%,GPU里再细分的话,AMD和NV(legacy)对半分。训练还是得NV占大头,60%+,剩下的自研ASIC和AMD对半分 2030年按60%推理,40%训练比例划分,算下来NV 38%, ASIC 39%, AMD 23%,跟openAI比例是几乎完全一致的,算是一个标准答案参考值 当然了,微软,Amazon,Google,Anthropic这几家里AMD的比例会比这个标准答案中枢/参考值明显低一些,xAI则是没有ASIC只有Nvidia+少量AMD AMD的风险在于,当2030年再往后的更长期,CSP的in house ASIC越来越成熟(微软除外),推理端ASIC占比可能越来越高,很难有incentive新买入大量GPU了,除非卖的足够便宜 最近风头正劲的TPU呢?Meta是不是要转向TPU?对Nvidia的利润率影响大吗? 实际上,Meta今年capex72B,明年capex110B,未来六年capex平均值可能达到160B附近,而Meta 6年10B的TPU订单算下来年均只有1.6B,而且购买的是TPU云服务,并不是裸TPU 也就是说,Meta这笔TPU订单只占到Meta未来6年capex的1%,并没有严肃的考虑大规模部署,可能只是作为和Nvidia讨价还价的手段而已 另外从Meta最近几个月的招聘广告来看,也并没有看到任何TPU engineer方面的招聘,不像 Anthropic那样从五月就招一堆TPU kernel engineer,十月才宣布大规模采购TPU做训练 所以说,不管原因是diversify供货商,还是给自研ASIC延迟做退路,还是因为AMD的MI350X延迟,Meta买TPU基本上只有一个考虑:增加买Nvidia GPU的议价权,但顶多只有推理份额里能讨价还价,实际效果很有限,对Nvidia利润率影响也很有限。 要知道,22年加密货币熊市矿难的时候,NVDA库存上升到了198天,利润率只是从65%回撤到了56%,算上PE/宏观双杀股价才从300变100,现在一直供不应求,利润率没道理能降下来 再加上TPU v8设计过于保守(没用HBM4),Kyber rack的Rubin方案会比TPU v8的TCO更好,到头来最后还是得继续依赖Nvidia,很难议价。只要Nvidia继续保持这样的大踏步前进,竞争对手其实要跟上还是不容易的。 总之,一方面,全产业链瓶颈,比如cowos扩张都很谨慎,供不应求的状态还能持续多年。 另一方面,AI变现的利润曲线和硬件投入曲线存在“时间错配”,应用端的增长曲线会落后几年,只要这个应用端和基建端的增长曲线的时间错位依旧存在,半导体在IT行业的利润分配就会一直占优势。 从OpenAI的到2030年的投入曲线来看,这个时间错位至少要持续到2030年附近。也就是说半导体行业的超级扩张期带来的在IT产业利润划分的主导地位,目前看至少能持续到2030年 而半导体高利润率可能会维持的更长远一些,因为从互联网时代一次性基建属性变成了现在的收租基建属性 --------------------------------------------------- AI 不是只养活了 GPU,而是在用算力预算把“能把电变成 token 的每一环”都抬了一轮,从内存,存储,互联,光纤,电力,储能…..等等 上半篇讲完了“半导体吞噬IT利润”,那么下半篇讲的就是“AI算力价值溢出效应(Spillover Effect)重塑半导体内部格局”:GPU算力增长 -> 内存/存储/互联/CPU瓶颈 -> 溢出效应 -> 结构性机会 2025 年更有趣的故事,是巨大的行业红利在半导体内部怎么诞生结构性新机会,比如说,一个super cluster需要几个数据中心互联,光纤互联的长度需要上百万mile这个级别,这就是新机会 半导体产业链的结构性趋势带来的新机会,最典型的例子就是内存(DRAM/HBM)和存储(SSD),HBM的需求增长太夸张,连带挤压DDR4/5产能,直接让以周期性为标志的内存行业甚至喊出了“周期不存在”了,Hynix因为在HBM上领先,甚至都开始憧憬起了几年后年利润1000亿美元,妥妥一个万亿市值的公司 这两个板块背后,是结构性趋势的转变:AI workload从训练逐渐往推理延申,推理比例越来越大。 而推理是一个非常纯粹的吃内存带宽速度(memory bound)的事情,可以说带宽速度=token/s。模型尺寸越来越大,以及上下文context length的增加,对内存的尺寸要求也相应增大,导致了内存的需求激增:推理即内存 下一代的的GPU/ASIC内存已经成了暴力美学,配备的内存size之巨大,是三年前无法想象的,回看22年H100的80GB简直像个玩具,这才几年就增长了十倍: Nvidia Ultra Rubin - 1024GB HBM Qualcomm AI200 - 768GB LPDDR AMD MI400x - 432GB HBM 内存的另外一个潜在的爆发点在端侧,也就是手机/PC/汽车/机器人的端侧LLM,这两年主流的手机旗舰机已经从6GB升级到了8GB/12GB/16GB,提前为可能的端侧LLM生态做准备,毕竟手机算力下一代就能达到150TOPS量级,妥妥的桌面级,非常暴力 潜力上来说,端侧内存升级是比云端内存增量要更大的市场,毕竟端侧终端device的数量太惊人了,每年都是billion级别,一旦端侧LLM生态繁荣起来,内存用量翻倍轻而易举,针对端侧低功耗内存/存算一体的各种设计都会跟上 但端侧genAI的软件生态,似乎明显滞后,一直比我想象的进度要慢,可能是因为这方面还处于摸索期,并没有云端那么确定的ROI,厂商们在投入上都很谨慎,我在23~24年时候看好27年,可能还是太乐观了 互联网->移动互联网用了10~15年,端侧genAI/LLM可能也需要7~10年,可能得等云端ROI开发的差不多了,边际收益下降了,才能轮得到端侧genAI/LLM拿到开发资源,跑通端侧ROI。 -------------------------------------- 另一个2025年半导体内部结构性转变的故事是NAND存储,特别是企业级eSSD硬盘 结构性趋势来源也是同一个,AI workload的推理需求越来越大。内存红利也外溢到了SSD存储,甚至HDD存储,因为内存不够用就用高速SSD作为多级缓存 主要逻辑是AI推理过程中内存溢出KV cache offloading到下一层SSD存储,以及向量数据库检索/indexing,都在增加SSD存储的需求 Micron财报说的精准又直白:“AI inference use cases such as KV cache tiering and vector database search and indexing, are driving demand for performance storage.” 至于为什么存储价格在第四季度才爆发,这需要区分一下合约价格和现货价格,合约价格涨幅会温和一些,就算是最紧缺的企业级eSSD合约Q4上涨大概25%。而当NAND产能在2025年被合约慢慢的吃光,现货的价格就造成了观感上强烈的冲击,一个月上涨50%以上。 另一个未经验证的逻辑是多模态的爆发,特别是AI图片和AI视频的需求爆发,也会加剧存储的短缺,我觉得这条线只能说未来可期,但目前的视频/图片精细程度,可能还不到当年GPT3的水平,要达到出圈效果还需要一些时日。 ------------------------ 那么下一步还有什么趋势转移带来的半导体结构性的机会呢 那么就要先看下一步AI推理端的需求趋势是什么,毫无疑问,agentic flow的比例会越来越大,2025并不是year of agent,而是一个decade of agent 从CPU视角去看agentic workload,routing和工具处理都在CPU上,如果把常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU,甚至CPU能耗也超过了总能耗的40% Agentic AI目前是一个CPU瓶颈更多的事情,在 agentic 框架里,CPU 是永远在忙的总指挥orchestrator, 很可能会成就CPU需求的新一波回暖 AMD 2025年Q2财报(8月5日),Lisa Su明确表述了这一现象:​"In particular, adoption of agentic AI is creating additional demand for general-purpose compute infrastructure, as customers quickly realize that each token generated by a GPU triggers multiple CPU-intensive tasks." "agent AI的采用正在对通用计算基础架构产生额外的需求,因为客户很快就意识到GPU产生的每个令牌都会触发多个CPU密集型任务。" ​Q3 财报里Lisa又明牌了一次CPU TAM increasing due to Gen AI. "Many customers are now planning substantially larger CPU build outs over the coming quarters to support increased demands from AI, serving as a powerful new catalyst for our server business." Nvidia也是把agent flow视为CPU需求,GB200/300 架构配置的CPU比例也比以往大的多,36颗 Grace CPU : 72颗 Blackwell GPU,直接达到了1:2的水平,AMD的路线则是用1~4个256核的EPYC去服务MI400系列72~128个GPU 以后的硬件架构,一定会往优化agent workload方向发展,比如agent task graph的调度和load balancing,CPU/GPU协同micro-batching 算力上的比较,说不定以后也会摆脱现在的纯GPU token rate比较,转向整个系统级全栈agentic benchmark比较. -------------------------- 半导体结构性转变带来的机会同时,下一步,可能也会带来一些意想不到的次生效应 云端AI数据中心需求爆发,造成内存和存储的暴涨,给消费电子的成本带来了很大压力,在2026年,这也许会演变成消费电子产业潜在的黑天鹅 PC厂商最近的股票大跌,也是这个原因。HP已经说了要减少内存配置,暗示要把PC重回8GB内存+256GB存储的时代了。 DRAM内存和存储再这么涨下去,可能会出现很离谱的情况:内存/存储现货价格比CPU和GPU还要更贵。尴尬的是,这可能直接延缓了消费电子期望的AI PC的进程,毕竟大内存是更有利AI PC的表现力的。 夸张的说,每个PC厂商和手机厂商的员工,甚至是消费电子厂商的员工,都应该买入存储和内存,作为职业风险对冲 明年年初开始,安卓阵营的内存以及存储成本要压不住了,三星,小米的手机售价都提高的话(美国市场现在已经提高不少了),利好最大的就是苹果 苹果的内存产能,nand产能都是专属长约锁价特供的,顺带还把Kioxia给坑了好多不涨价产能,导致苹果的成本优势进一步扩大,苹果全球手机销量市占率增长可能会非常可观,接下来一阵子可能会是iphone辉煌的时光。 ----------------------- 2025年半导体市场真的是太多精彩的故事了,Nvidia/AMD/TPU和各家hyperscaler的恩怨情仇引得各路下注的吃瓜群众心情跌宕起伏。 HBM/内存厂商吃到了memory-bound的红利,NAND厂商意外收获了KV cache的溢出效应,CPU在沉寂近十年后,可能会因agent orchestration再次回到增长叙事的中心 不再是Nvidia/AVGO几家算力厂商独大,而是AI workload算力价值溢出后的每一次演进,从训练到推理,从文本到多模态,从单模型调用到agentic flow,都在重写产业链的价值分配。 云端AI的繁荣正在挤压消费电子的生存空间——当PC厂商被迫讨论重回8GB时代,苹果却因供应链优势坐收渔利。这场算力军备竞赛的次生效应,可能在2026年以意想不到的方式重塑整个消费电子格局 半导体的故事不再是一条单线,而是一张持续自我重构的网。而 2025 年,大概只是合纵连横的第一回合
fin tweet mediafin tweet mediafin tweet media
fin@fi56622380

芯片只有AI火热,半导体的2024年基本延续了2023这个基调 只要蹭上AI相关的叙事,股价增长表现都是接近翻倍或者更高,毕竟这是确定性的增长机会,PE都会给的很有想象力 蹭AI失败典型就是高通,微软的recall功能跳票,导致AIPC/端侧LLM叙事直接破产,股价高点下跌不少,就算赢了跟ARM的官司也无济于事 微软跳票+苹果apple intelligence乏力+安卓碎片化,今年端侧AI/LLM只能这么评价:存在感基本为零 端侧LLM功能开发是heavy lifting,即便端侧算力完全达标了(手机端NPU算力去年已经75TOPs了,非常暴力,标准的桌面级,两年内到150Tops问题不大),端侧LLM生态也还没有那么快,还需要SDE们的持续爆肝。我还是和一年前观点类似,看好26~27年才会有比较显著的进展和丰富一些的玩法 端侧AI目前唯一的热点就是智能眼镜,Meta的Rayban眼镜只是个原型,AI功能实用性基本可以忽略,也卖了两百万,整个智能眼镜市场全年接近四百万销量,风头超出了所有人的预期,PMF得到了验证 虽然目前的智能AI眼镜跟LLM半点关系都没有。24~25年主要的端侧AI部分就是眼球追踪和手势追踪,顶多加上OCR,毕竟眼镜只有那么一点点算力,功耗要求也过于严格(<1w)比手机低了一个数量级 下周的CES在端侧AI基本上就是AI眼镜主题秀,说百镜大战可能有点夸张,但差不多就是这个热度,是典型的Hype没错,但未来可期也是真的 -------------------------------------------- 另一个蹭AI失败的Micron,则是因为PC和手机端的DRAM需求比预期疲软,股价涨了一阵跌回原地。毕竟PC和手机端内存是大头,HBM的占比暂时还是太低了,难以撑起AI叙事,7倍的forward PE低的令人发指 AMD是个例外,蹭上了AI竟然还是跌的,2025的PE也低到竟然只有17。各家CSP都热衷于自研model->compiler->asic accelerator从上到下一整套解决方案提高performance,ASIC赛道的火热,让AMD和Nvidia在同一个赛道火拼,只能说CUDA积累的生态优势恐怖如斯 ------------------------------ 蹭AI姿势最成功的,莫过于给各家互联网云厂CSP们做ASIC AI加速器的Broadcom和Marvell,都是直接靠画饼就能翻倍,太可怕了(以及即将蹭上的MTK/AICHIP) 这大概是2024年最大的的芯片风口转型故事 其实帮互联网公司做ASIC AI加速器对于传统半导体厂商并不是特别有挑战性的事情,对IP的要求并不高,主要是做SoC的infra从前端到后端整个配套设施,核心core ML加速器+上层compiler都是互联网公司自己做。 只要服务态度好,客户支持到位,要求什么就给什么,价格合理,门槛并不是那么高。除了互联interconnect IP,基本上可替代性比较高 所以MTK这种云端NPU经验并不多的芯片厂,也能当Google TPU V7之一的供应商 大公司deploy自己的model时,现在都喜欢用自己的asic配套自己的compiler,自己做的asic明明在纸面功耗比上(TOPs per watt)比H100差了不少,甚至能到40%,要花大力气用自家的功耗比并不是那么好的asic,表面上来看并不合算,除了控制成本(和NV讨价还价),为什么还要自己做? 简单的说,各种深度学习model/workload的瓶颈都不一样,很难有通用的解法,卖家标称的纸面性能/功耗比,并不能代表实际日常的实际表现 公司即便是把H100拿过来用,不经调试直接跑自己的model,其实根本跑不到Nvidia标称的性能performance,差距非常明显 如果要跑出理想的performance,要去研究model怎么适配CUDA做优化,甚至需要改compiler里面的一些参数,所以即便是Nvidia,也会派人给大客户针对他们的workload去optimize/tune CUDA/compiler层 而如果大公司比如meta用自家的model/compiler和hw全套,特定的workload会比其他家的ASIC比如高通的AI100 性能要高数倍 因为自家的模型运算细节自己都了解,可以针对自己的model改compiler和芯片,model的size等各种参数达到最好的效果,从内存分配逻辑,kernel tuning,数据精度,tiling,流水线pipeline结构去从硬件的角度迎合上层model的优化,性能差距会非常大,这是一个上层应用决定硬件形状的时代 如果meta用高通的SDK+compiler+ASIC全套,没有办法针对自己的model去优化,只能用高通的东西去sweep各种参数,这里说的sweep意思是高通的SDK和编译器允许用户调整一些参数(例如线程块大小、内存分配策略、流水线深度等)来优化特定operator的性能。用户会尝试不同参数组合,以找到性能的sweet spot 而sweep参数获得的性能优化会比较有限 这就是为什么最后大公司比如meta的model运行在高通的asic上面的performance,反而会不如自己家看起来功耗比更差的全套compiler+ASIC ----------- 为啥CSP们要自己做芯片的同时又外包给传统半导体厂商呢? 一块SoC里大部分IP,包括Cache/memory,CPU,DSP,high speed IO, boot以及低功耗控制,需要的人力是很多的,但只是提供了一个承载ML加速器运行的infra平台,对于互联网厂家来说没有任何自己做的必要,CSP们只会对直接影响ML加速器部分的内容感兴趣 芯片这个圈子太小了,而且前端后端各个角色之间隔行如隔山,挖人不容易,无法在短时间内招到一个磨合良好的团队稳定的迭代项目。Goole/Amazon/Microsoft/Meta这几家开出高出市场价很多的薪水四处挖角,silicon team也都只是几百人到一千人的规模。一般来说从零开始组建一个不错的大厂silicon design house成型,起码要十年时间 所以给成熟的芯片大厂外包做是一个很合理的选择 ------------- 那么CSP们会不会自己做了ASIC然后往外卖和Nvidia竞争呢? 不会,因为这些ASIC组成立的目标KPI就是节约了多少成本,专门做这个生意风险和投入不成正比,芯片支持多个客户的成本是上升很多的,完全没有必要 这也是为什么这些ASIC组在制定架构指标时比较省心,直接对标Nvidia下一代的Tops以及带宽指标就行,同算力功耗多了50%也无所谓,靠后期compiler和针对性架构来弥补,反正只要能节省成本不被Nvidia压榨就行 ----------------------------- ASIC AI加速器故事即便在2025~2026年,其实也还是整个市场占比很小的小众市场,Nvidia仍然是这场LLM科技革命里毫无疑问的基建期唯一大boss 至于openAI/Anthropic能不能像2004年的Google/Facebook一样,成长为这一轮浪潮里的新巨头,那就拭目以待了 2025年的半导体,AI作为主旋律的日子,怕是还会持续。不过其他领域的复苏,比如汽车电子的增长,还是比2024要好看些的 2025除了AI主旋律外最大的看点,就是intel的18A制程量产效果能否如期落地,这可能是2025影响产业格局最大的事件了

中文
85
369
1.2K
838.2K
Freedom
Freedom@Freedom12282341·
@fi56622380 @jukan05 agent普及造成cpu短缺的说法已经传了挺久了,明显的趋势为啥还没有成为市场共识?
中文
1
0
0
2.3K
fin
fin@fi56622380·
CPU 不能像 memory / optics 那样猛涨价,这个判断在“普通紧缺”场景里是合理的,就像今年年初一样,只有10%的涨价 但他的前提是,每块GPU带几个CPU比例是主要的CPU增量:“如果没有 MI308X,Q4 Data Center 只会比 Street 高不到 1%”这个data point很有价值,充分说明了现在CPU增长的来源,agentic flow带来的增量几乎为零 但是很明显未来并不是这样,软件API调用是指数型上升的,现在还处于完全没有起步的微小阶段 CPU shortage debt会越来越多,早晚要还的,因为这是结构性的比例变化,现在一个agent调用的CPU还不多,以后会越来越多,API就像是GPU的手脚一样,CPU以后会成为结构性瓶颈 每一个GPU产生的token每一代是翻倍的,那么以后每一个GPU能批量同时支持的agent也是越来越多的,也就对应了调用的CPU threads也越来越多,所以CPU不够会成为瓶颈 CPU 还是 capex share loser,这个说法在2026没啥问题,因为现在确实不是瓶颈。但是在agent coding量一年十倍的背景下,以及每一个GPU的token throughput每一代都翻倍的背景下,2027-2028呢? 我们要用动态的眼光看问题 他的datapoint反而支持了我的论点:我的四个逻辑点里,第一个逻辑点明确强调了,“这部分CPU主要是各家AI 芯片绑定自研,并不是纯粹的CPU服务器,其实不算是外部CPU服务器的机会”,也就是说,软件API调用指数型增长的机会,目前仍然是零的情况下,CPU已经涨价20%,已经供不应求了 那等软件API调用指数型增长的时候,CPU得涨价多少? PS:抱歉没用英文回复,我用中文回复思路会清晰一些也快一些
中文
11
81
454
95.4K
投资TALK君
投资TALK君@TJ_Research·
最被憎恨的纳指12连涨。指数非常误导人,因为纳指YTD 3.7%,七姐妹YTD-0.7%,完全由芯片主导的上涨,YTD35%!所以觉得纳指有泡沫,最应该做空的是芯片!至于纳指的估值,到今天的收盘24.8倍,还在过去5年相对便宜的区间,中间数差不多是26倍左右。拿现在的大科技和科技泡沫比,不是蠢就是坏。
中文
38
22
406
68.6K
Freedom retweetledi
fin
fin@fi56622380·
@smooth_shun @fin 只是因为在置信区间70%以上我才敢写出来,不懂就不写,所以会被误以为懂很多,其实也只是普通打工人罢了 发主贴我希望能经得起时间考验(所以极力避免写股票涨跌,只写逻辑链),另外要有市面上没人写出来的深度我才觉得有写的价值,加上很多时候太忙,所以这两年写的少了 评论区会敢乱说一些🤣
中文
0
2
9
583
Freedom
Freedom@Freedom12282341·
@fi56622380 @TaNGSoFT @TJ_Research 老师觉得内存拉升是否已经到尾声? 我个人觉得随着personalized agent ,agent memory需求越来越大,大模型对hbm的需求才刚刚开始加速
中文
0
0
1
1.1K
fin
fin@fi56622380·
@TaNGSoFT @TJ_Research token经济第一浪:大模型训练->GPU算力链快速拉升 token经济第二浪:大模型推理->内存存储链快速拉升 token经济第三浪:大模型agent(含推理)->软件调用指数上升(老黄认证)-> CPU链 + 内存存储链快速拉升
fin tweet media
中文
1
18
93
25K
Freedom
Freedom@Freedom12282341·
@fi56622380 @lidangzzz 这模式也不一定要用上面说的那些高端gpu,可能就用的nvidia gpu h200 blackwell,但batch size设得很低,相当于用户付额外的钱把整个node包下来,不和其他用户共享。 Claude to b业务越来越会整活了😆
中文
0
0
2
88
fin
fin@fi56622380·
@lidangzzz 金钱换速度,开始正式商用了! Claude推出这个服务,肯定就是因为看到了agent提速需求并不小众 坐等接下来Claude这个试水结果,估计可以初步看到这个模式的TAM比例有多大 x.com/oran_ge/status…
Orange AI@oran_ge

这个疯狂燃烧 token 的时代愈加疯狂 Claude 已经很贵了,现在推出 fast 模式 2.5倍速输出结果,定价是原来的5倍 也就是说用户花钱的速度可以达到原来的 12.5 倍,一天花个几百美金不是梦 大家努力好好赚钱吧,这样才有资格用最先进的 AI code.claude.com/docs/en/fast-m…

中文
1
1
2
1.2K
lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人)
还有在片上堆SRAM跑inference的芯片, 代表就是我这些年反复提到的三家:groq、cerebras、sambanova, 我相信这三家至少有一家会熬到IPO,或者被OpenAI/Anthropic/Google直接收购,直接干死nvidia, 咱人类只有不惜成本在片上堆SRAM,把整个模型load进去直接跑inference,才能彻彻底底干死nvidia。
fin@fi56622380

回顾2025年半导体市场,真的是有太多太多精彩的故事,最大的主题就是: AI需求驱动导致半导体基建的估值体系重构 + 产业链的价值分配重写 从2024年开始,半导体基建正在飞速吞噬整个IT产业利润,SP500里半导体净利润EPS在IT行业里占比,在两年时间从不到20%上升了到了40%,而且还在呈加速上升姿态 半导体整体前瞻利润率从2023年的25%已经升到了2025年11月的43%,已经明显超过了几个互联网巨头的平均利润率,这也印证了半导体利润率超过互联网会是新常态。整个IT产业的利润分配,流向半导体的比例越来越大。 要知道,就算是20~22年的半导体芯片荒,短缺如此严重,半导体的利润率和整个IT利润分配也没有显著增长 这就是故事的上半篇:AI需求驱动导致半导体基建的估值体系重构,不再是互联网时期的基建从属地位 ------------------------ 这个现象背后的逻辑是商业模式随着技术特性的变迁: 互联网时代,每次请求的网络和算力成本,边际成本极低,scaling的效果极好,分发的边际成本几乎为零 在AI时代,这个互联网时代分发边际成本几乎为零利于scalable的特性遭遇了根本性的重大挑战:且不说训练成本从此不是一次性开销而是年年增长,就客户的AI推理请求而言,由于inference scaling成为共识,加上垂直领域仍然需要更大规模的旗舰模型来保持竞争力,推理的成本不会随着硬件算力价格的通缩而同步降低 互联网企业从前的最大成本只有OPEX尤其是SDE人工成本,而现在,互联网公司历史上第一次像半导体厂foundry那样背上高折旧成本的资产负债表,商业模型恨不得要慢慢从“流量 × 转化率”部分转向“每 token 毛利”了 简单的说,互联网时代到AI时代的成本分布,在人力成本opex的基础上又加上了沉重的硬件/算力成本capex(财报里占比:MSFT 33%, Meta 38%)。 上个时代的互联网公司+CSP+SAAS是收租行业里的大赢家,而AI时代,算力(半导体/芯片折旧)成为了新的收租行业,整个IT行业的利润分布发生了剧烈的重新分配(EPS利润流向半导体从20%升到40%而且持续攀升中),这就是半导体基建估值体系重构最重要的原因 --------------- 半导体高利润率的新常态趋势能持续多久? 目前的高溢价来自于前期不计成本的军备竞赛造成的半导体订单积压过多 但很显然,hyperscalers都不愿意当冤大头,都在试图自建ASIC降低成本,那么可以从2030年远期的算力分布来回看这个问题 长线来看,openai已经明牌了标准答案,10GW Nvidia,10GW ASIC,6GW AMD,其他hyperscaler划分比例有类似考虑 比如说,推理端希望ASIC >50%,GPU里再细分的话,AMD和NV(legacy)对半分。训练还是得NV占大头,60%+,剩下的自研ASIC和AMD对半分 2030年按60%推理,40%训练比例划分,算下来NV 38%, ASIC 39%, AMD 23%,跟openAI比例是几乎完全一致的,算是一个标准答案参考值 当然了,微软,Amazon,Google,Anthropic这几家里AMD的比例会比这个标准答案中枢/参考值明显低一些,xAI则是没有ASIC只有Nvidia+少量AMD AMD的风险在于,当2030年再往后的更长期,CSP的in house ASIC越来越成熟(微软除外),推理端ASIC占比可能越来越高,很难有incentive新买入大量GPU了,除非卖的足够便宜 最近风头正劲的TPU呢?Meta是不是要转向TPU?对Nvidia的利润率影响大吗? 实际上,Meta今年capex72B,明年capex110B,未来六年capex平均值可能达到160B附近,而Meta 6年10B的TPU订单算下来年均只有1.6B,而且购买的是TPU云服务,并不是裸TPU 也就是说,Meta这笔TPU订单只占到Meta未来6年capex的1%,并没有严肃的考虑大规模部署,可能只是作为和Nvidia讨价还价的手段而已 另外从Meta最近几个月的招聘广告来看,也并没有看到任何TPU engineer方面的招聘,不像 Anthropic那样从五月就招一堆TPU kernel engineer,十月才宣布大规模采购TPU做训练 所以说,不管原因是diversify供货商,还是给自研ASIC延迟做退路,还是因为AMD的MI350X延迟,Meta买TPU基本上只有一个考虑:增加买Nvidia GPU的议价权,但顶多只有推理份额里能讨价还价,实际效果很有限,对Nvidia利润率影响也很有限。 要知道,22年加密货币熊市矿难的时候,NVDA库存上升到了198天,利润率只是从65%回撤到了56%,算上PE/宏观双杀股价才从300变100,现在一直供不应求,利润率没道理能降下来 再加上TPU v8设计过于保守(没用HBM4),Kyber rack的Rubin方案会比TPU v8的TCO更好,到头来最后还是得继续依赖Nvidia,很难议价。只要Nvidia继续保持这样的大踏步前进,竞争对手其实要跟上还是不容易的。 总之,一方面,全产业链瓶颈,比如cowos扩张都很谨慎,供不应求的状态还能持续多年。 另一方面,AI变现的利润曲线和硬件投入曲线存在“时间错配”,应用端的增长曲线会落后几年,只要这个应用端和基建端的增长曲线的时间错位依旧存在,半导体在IT行业的利润分配就会一直占优势。 从OpenAI的到2030年的投入曲线来看,这个时间错位至少要持续到2030年附近。也就是说半导体行业的超级扩张期带来的在IT产业利润划分的主导地位,目前看至少能持续到2030年 而半导体高利润率可能会维持的更长远一些,因为从互联网时代一次性基建属性变成了现在的收租基建属性 --------------------------------------------------- AI 不是只养活了 GPU,而是在用算力预算把“能把电变成 token 的每一环”都抬了一轮,从内存,存储,互联,光纤,电力,储能…..等等 上半篇讲完了“半导体吞噬IT利润”,那么下半篇讲的就是“AI算力价值溢出效应(Spillover Effect)重塑半导体内部格局”:GPU算力增长 -> 内存/存储/互联/CPU瓶颈 -> 溢出效应 -> 结构性机会 2025 年更有趣的故事,是巨大的行业红利在半导体内部怎么诞生结构性新机会,比如说,一个super cluster需要几个数据中心互联,光纤互联的长度需要上百万mile这个级别,这就是新机会 半导体产业链的结构性趋势带来的新机会,最典型的例子就是内存(DRAM/HBM)和存储(SSD),HBM的需求增长太夸张,连带挤压DDR4/5产能,直接让以周期性为标志的内存行业甚至喊出了“周期不存在”了,Hynix因为在HBM上领先,甚至都开始憧憬起了几年后年利润1000亿美元,妥妥一个万亿市值的公司 这两个板块背后,是结构性趋势的转变:AI workload从训练逐渐往推理延申,推理比例越来越大。 而推理是一个非常纯粹的吃内存带宽速度(memory bound)的事情,可以说带宽速度=token/s。模型尺寸越来越大,以及上下文context length的增加,对内存的尺寸要求也相应增大,导致了内存的需求激增:推理即内存 下一代的的GPU/ASIC内存已经成了暴力美学,配备的内存size之巨大,是三年前无法想象的,回看22年H100的80GB简直像个玩具,这才几年就增长了十倍: Nvidia Ultra Rubin - 1024GB HBM Qualcomm AI200 - 768GB LPDDR AMD MI400x - 432GB HBM 内存的另外一个潜在的爆发点在端侧,也就是手机/PC/汽车/机器人的端侧LLM,这两年主流的手机旗舰机已经从6GB升级到了8GB/12GB/16GB,提前为可能的端侧LLM生态做准备,毕竟手机算力下一代就能达到150TOPS量级,妥妥的桌面级,非常暴力 潜力上来说,端侧内存升级是比云端内存增量要更大的市场,毕竟端侧终端device的数量太惊人了,每年都是billion级别,一旦端侧LLM生态繁荣起来,内存用量翻倍轻而易举,针对端侧低功耗内存/存算一体的各种设计都会跟上 但端侧genAI的软件生态,似乎明显滞后,一直比我想象的进度要慢,可能是因为这方面还处于摸索期,并没有云端那么确定的ROI,厂商们在投入上都很谨慎,我在23~24年时候看好27年,可能还是太乐观了 互联网->移动互联网用了10~15年,端侧genAI/LLM可能也需要7~10年,可能得等云端ROI开发的差不多了,边际收益下降了,才能轮得到端侧genAI/LLM拿到开发资源,跑通端侧ROI。 -------------------------------------- 另一个2025年半导体内部结构性转变的故事是NAND存储,特别是企业级eSSD硬盘 结构性趋势来源也是同一个,AI workload的推理需求越来越大。内存红利也外溢到了SSD存储,甚至HDD存储,因为内存不够用就用高速SSD作为多级缓存 主要逻辑是AI推理过程中内存溢出KV cache offloading到下一层SSD存储,以及向量数据库检索/indexing,都在增加SSD存储的需求 Micron财报说的精准又直白:“AI inference use cases such as KV cache tiering and vector database search and indexing, are driving demand for performance storage.” 至于为什么存储价格在第四季度才爆发,这需要区分一下合约价格和现货价格,合约价格涨幅会温和一些,就算是最紧缺的企业级eSSD合约Q4上涨大概25%。而当NAND产能在2025年被合约慢慢的吃光,现货的价格就造成了观感上强烈的冲击,一个月上涨50%以上。 另一个未经验证的逻辑是多模态的爆发,特别是AI图片和AI视频的需求爆发,也会加剧存储的短缺,我觉得这条线只能说未来可期,但目前的视频/图片精细程度,可能还不到当年GPT3的水平,要达到出圈效果还需要一些时日。 ------------------------ 那么下一步还有什么趋势转移带来的半导体结构性的机会呢 那么就要先看下一步AI推理端的需求趋势是什么,毫无疑问,agentic flow的比例会越来越大,2025并不是year of agent,而是一个decade of agent 从CPU视角去看agentic workload,routing和工具处理都在CPU上,如果把常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU,甚至CPU能耗也超过了总能耗的40% Agentic AI目前是一个CPU瓶颈更多的事情,在 agentic 框架里,CPU 是永远在忙的总指挥orchestrator, 很可能会成就CPU需求的新一波回暖 AMD 2025年Q2财报(8月5日),Lisa Su明确表述了这一现象:​"In particular, adoption of agentic AI is creating additional demand for general-purpose compute infrastructure, as customers quickly realize that each token generated by a GPU triggers multiple CPU-intensive tasks." "agent AI的采用正在对通用计算基础架构产生额外的需求,因为客户很快就意识到GPU产生的每个令牌都会触发多个CPU密集型任务。" ​Q3 财报里Lisa又明牌了一次CPU TAM increasing due to Gen AI. "Many customers are now planning substantially larger CPU build outs over the coming quarters to support increased demands from AI, serving as a powerful new catalyst for our server business." Nvidia也是把agent flow视为CPU需求,GB200/300 架构配置的CPU比例也比以往大的多,36颗 Grace CPU : 72颗 Blackwell GPU,直接达到了1:2的水平,AMD的路线则是用1~4个256核的EPYC去服务MI400系列72~128个GPU 以后的硬件架构,一定会往优化agent workload方向发展,比如agent task graph的调度和load balancing,CPU/GPU协同micro-batching 算力上的比较,说不定以后也会摆脱现在的纯GPU token rate比较,转向整个系统级全栈agentic benchmark比较. -------------------------- 半导体结构性转变带来的机会同时,下一步,可能也会带来一些意想不到的次生效应 云端AI数据中心需求爆发,造成内存和存储的暴涨,给消费电子的成本带来了很大压力,在2026年,这也许会演变成消费电子产业潜在的黑天鹅 PC厂商最近的股票大跌,也是这个原因。HP已经说了要减少内存配置,暗示要把PC重回8GB内存+256GB存储的时代了。 DRAM内存和存储再这么涨下去,可能会出现很离谱的情况:内存/存储现货价格比CPU和GPU还要更贵。尴尬的是,这可能直接延缓了消费电子期望的AI PC的进程,毕竟大内存是更有利AI PC的表现力的。 夸张的说,每个PC厂商和手机厂商的员工,甚至是消费电子厂商的员工,都应该买入存储和内存,作为职业风险对冲 明年年初开始,安卓阵营的内存以及存储成本要压不住了,三星,小米的手机售价都提高的话(美国市场现在已经提高不少了),利好最大的就是苹果 苹果的内存产能,nand产能都是专属长约锁价特供的,顺带还把Kioxia给坑了好多不涨价产能,导致苹果的成本优势进一步扩大,苹果全球手机销量市占率增长可能会非常可观,接下来一阵子可能会是iphone辉煌的时光。 ----------------------- 2025年半导体市场真的是太多精彩的故事了,Nvidia/AMD/TPU和各家hyperscaler的恩怨情仇引得各路下注的吃瓜群众心情跌宕起伏。 HBM/内存厂商吃到了memory-bound的红利,NAND厂商意外收获了KV cache的溢出效应,CPU在沉寂近十年后,可能会因agent orchestration再次回到增长叙事的中心 不再是Nvidia/AVGO几家算力厂商独大,而是AI workload算力价值溢出后的每一次演进,从训练到推理,从文本到多模态,从单模型调用到agentic flow,都在重写产业链的价值分配。 云端AI的繁荣正在挤压消费电子的生存空间——当PC厂商被迫讨论重回8GB时代,苹果却因供应链优势坐收渔利。这场算力军备竞赛的次生效应,可能在2026年以意想不到的方式重塑整个消费电子格局 半导体的故事不再是一条单线,而是一张持续自我重构的网。而 2025 年,大概只是合纵连横的第一回合

中文
9
8
57
86.1K
Freedom
Freedom@Freedom12282341·
@fi56622380 老师,intel最新的这份财报您怎么看?市场对这个前瞻指引和产能上不去反应很大
中文
1
0
0
853
Freedom
Freedom@Freedom12282341·
@BTCdayu 如果usdc未来能发展到链上法币地位形成垄断,分发层的决定权其实很小。就像微信支付不可能决定用户使用哪种法币。前提是usdc能成为最大的链上法币
中文
0
0
0
131
宇十一
宇十一@BTCdayu·
《稳定币的估值要从新角度,不可硬套传统互联网估值》 研究得很细致,很赞!一并与本人另一不同观点文章收录于投资频道,也更新一些我的思考: 分发层捕获最大价值,且COINBASE和PAYPAL等分发层成为龙头,同意30%。 我的观点是:分发层会捕获较大价值,不一定是最大;而且吃到利润的不是COINBASE或PAYPAL。 一层层说。 分发层会捕获较大价值,主要还是规模效应带来的确定性毛利,但利润率会极低,以微信支付 假如稳定币要普及,分发层会捕获极大价值确实是一个确定的方向,就像微信支付,微信不发行人民币,但是通过微信支付捕获了分发层,但很多人可能不知道的是,微信支付虽然占据了垄断地位,但微信支付本身几乎不赚钱,甚至长期是“战略性微亏 / 微利”。 因为支付费率极低,具体是: 个人转账:免费 商户收款:约 0.38%–0.6% 银联、通道、清算成本吃掉大半 那么, COINBASE现在捕获的利润大不在?变态的大,因为只要进去了CB,稳定币发行方获得的利息全给它;而站外的,仅管只占顾4%,但也要分一半50%给它,原因是这个分成协议不签,CIRCLE可能会在当年死掉;而26年会重签,重签我预估会是站内100%全给他,站外的分成比例会在20%以下。 而且我们讨论稳定币肯定是讨论终局或起码10年后怎么样,也不用太纠结26年,那么终局假如USDC规模达到1万亿,每年利润300亿,COINBASE能分多少呢?我觉得站外部分可能是只按股权分,比如4%。而站内部分会和其他渠道一样,极低比例。 有意思的是,我觉得这些CB或STRIPE等都不会是分发的龙头,会有两类是龙头, 一类是面子,比如X、what'sapp、PAYPAL等企业,这些企业中一部分可能自己发行合规稳定币(这部分反而是我觉得CIRCLE最大的不确定性,充分竞争是否会导致利润率迟迟上不去,不得不持续陷入补贴大战,有哪些企业会发?有哪些会直接用USDC?略让我放心的是CIRCLE的步伐挺快,与企业端等合作进展很快,包括VISA、STRIPE这些最有可能自己发的都没发)。 一类是里子。我标题说新思维,这一部分就很重要了。 USDC最大的分发层,是美国政府、是天才法案。这是定性,不是定量,不是具体到哪个互联网公司,而是更高维的视野。 仔细想一下,稳定币和微信支付中的法币有何不同?最大特点是: 稳定币背后有一个国债利息收入,这个收入是归稳定币发行方而不是美国政府,政府出钱; 微信支付中的法币发行方是政府,政府是发行人,不需要向任何人支付利息,政府不出钱; 这是一个令人细思恐极的角度,想明白这一点,才能明白稳定币为什么是全新的、伟大的东西。 我对稳定币有两个原创的定性,我本人十分自豪,在此再放一下: 稳定币是美元、美债的第二增长曲线! 稳定币是有史以来第一家商业公司能部分分享铸币税! 国家印钱,法币通胀是永远的,这是比特币之所以伟大的原因,而有意思的是任何国家印钱,对任何公司,任何个人都是一种无形的剥削,但有意思的事发生了: 美国因为印钱太多,发行的国债越来越多,支付的利息进入了恐怖的地步 ,每年收入的1/5要用来付利息,就像你年收入10万块,结果因为你借了不少高利贷,每年要付2万的利息,与此同时你还要7万KTV消费、2万买谈恋爱、1万吃饭,不够用了,你必须想个办法,要么生产力爆炸,你收入大增,要么最好是找个办法缓一缓,这样起码不用担心别人突然全部要你立刻马上还钱——这方面大家可以用AI再研究一下,看看美国国债相关的事。 美国的天才法案,就是为了这事而生的,就是为了让美元、美债有更多的接盘侠,美元的需求更大,那降息、增发才有安全边债;美债的接盘侠更多,美债才足够安全。所以仔细研究天才法案,所有的规则都是为了这一点。 所以,仔细想一下,得出我的第三个原创观点: 美国政府与天才法案是稳定币的最大分发层。 他们不是通过哪个具体的APP,而是在战略、政策、法规的层面来推进。 这不是讲故事和YY,更不是幻想,看看CIRCLE与VISA、STRIPE的合作,看看CIRCLE直接切入美国报税与企业系统,看看USDC被标普500评为优而USDT被评为差的评极,看看欧洲下架USDT而CIRCLE发行的稳定币成为第一。 接下来我们会看到CME的期货交易使用USDC,合约持仓成为USDC的新增;会看到纽交所的5*23小时交易并在美股上链后,支持USDC,巨大的交易量使USDC发生留存;会看到在外汇交易中,USDC占据绝对主导地位。 而USDT要么回归,变老实人并落后于CIRCLE;要么继续在现在的路上狂奔,自己成为美元的发行人,想增发就增发最后创始人进监狱。 最后,值得强调的是:理解稳定币,一定要把握其与法币的微妙不同,避免简单粗暴地照套过去。 ** 原文中还有较多其他观点,就不一一讨论,但总体感觉作者可能是受限于对传统互联网有较多研究,思维始终难以转化到观察新事物的角度,通篇都有一种用错误的旧框架套新事物的角度,而且旧框架中以为分发层捕获最大价值我也用微信支付不赚钱证明逻辑并不严谨。 而所谓的旧框架,举一例即可: 原文称“稳定币发行与准备金保证了“数字美元能存在”,但一旦成为公共基础设施,必然被标准化、监管化,其回报被压缩到接近无风险利率”。 这里是只有推理,但论据很错误,为什么成为公共基础设施,回报就会被压缩?他举的例子是TCP骨干网之类。那个是基础所以回报弱,而CIRCLE是基础,所以回报也会弱,这种推理错误叫什么?小明是男人,他很好色;小宇也是男人,所以也好色?这个推理是不严谨的(^^虽然小宇也好色,但我想你懂了我的比喻) 那为什么稳定币是基础,但他收益不会弱,而会越来越高?因为如果USDC规模越来越大,他的收入是确定的、稳定币,这是一目了然的,而不是压缩的,当它规模越大,挑战者的成本就越来越大——甚至成为无法被挑战的存在。 最后,很欢迎也很感谢深度思考后的讨论 @0xDrPR ** 彼得·蒂尔对如何发现未来会伟大的初创公司?提了四个方面: 第一、它们不受欢迎,不是热点所在 第二、它们很难评估,不在大多数人能力圈 第三、它们有风险,但不是不可逾越的风险 第四、如果成功了,将非常有价值 当前,其实不能说CIRCLE就一定会成功,也存在着诸多不确定性,比如照搬4个方面去看: 第一、它们不受欢迎,不是热点所在 稳定币仍不是主流投资人视野之内,大家还是集中在AI、消费,银行甚至在发动游行表示反对。 第二、它们很难评估,不在大多数人能力圈 理解稳定币,其实是需要很强的币圈与股市双角度的。 第三、它们有风险,但不是不可逾越的风险 充分竞争的风险,能否始终保持优势?走着看吧。 第四、如果成功了,将非常有价值 成功了,将是一家每年稳赚几百亿美元的企业。
Dr.PR@0xDrPR

x.com/i/article/2005…

中文
63
26
108
35.6K
Freedom
Freedom@Freedom12282341·
@fi56622380 老师想确认下这个x账号还在用吗😂好久没看到老师的精彩输出了,思想上感觉很是空虚
中文
1
0
0
1.1K
Freedom
Freedom@Freedom12282341·
@fi56622380 才发现avgo mc已经超越meta了 。。。
中文
0
1
5
1.6K
fin
fin@fi56622380·
@Freedom12282341 半导体公司里最有希望的就是AVGO了 存储里,micron相比起来技术还是差点,有希望达到这一点的只有Hynix,但是Hynix是韩国公司,所以估值会有限
中文
1
5
25
6.1K
Freedom
Freedom@Freedom12282341·
@fi56622380 感谢分享,非常赞同泡沫破裂更可能是在应用端。所有人都感受到ai带来的效率变化,并看到了未来更强的ai做更多的事的可能,就看那个公司能做的更好更快,占领市场。 只要应用需求长期存在,对算力的需求也会持续增加,flyingwheel
中文
0
0
2
311
fin
fin@fi56622380·
AI泡沫论,继循环投资/左脚踩右脚的故事淡化后,终于又迎来了新论据,这次轮到了GPU折旧问题 这次的叙事很简单,在几个主流CSP的财务报表里,GPU折旧年限很多都是平摊到6年来算 但是GPU使用寿命可能只有2~3年,那么这样做账就会让纸面上利润率虚高,而实际上AI云利润太低就是吹泡泡 真的是这样吗? ------------------------ 首先我们要来看看,GPU实际使用寿命2~3年这个说法是哪里来的 目前比较靠谱的溯源基本上指向了公开的Llama3的技术报告 Meta在2024年训练Llama 3.1 405B模型时,使用了16,384个H100 GPU,训练时长54天。在这期间记录了: 466次中断(interruptions),其中419次是非计划故障​ 平均每3小时发生一次故障​ 有效训练时间维持在90%以上 根据Meta的这次54天训练数据推算,年化GPU故障率(AFR)约9%​,最保守的估算,3年累计故障率约27%(超过1/4的GPU会在3年内失效) 虽然实际上肯定是用的时间越长故障率会更高,因为高负载导致的高温会更容易产生failure 所以训练用的GPU2~3年寿命并不是空穴来风,毕竟同步训练的脆弱性决定了AI训练过程要求单个GPU故障就能导致整个作业停止 另一个佐证就是,曾经GPU挖矿的矿卡,三年报废率也是很可观的,挖矿和训练的共通之处在于GPU利用率都很高 在这个Llama3技术报告之外,所有CSP,包括Azure,GCP,AWS的这类数据都是保密的,毕竟这个故障率直接关系到运营成本和服务质量,算是商业机密。 ----------------------------------------- 确认了折旧率数据来源,接下来就要说“但是”了 -------- 1. 是不是训练用的GPU寿命都一直会这么短? 首先Meta这个训练数据推算是按中断次数算的,但并不是每次中断都 = 1 GPU 坏了 实际上即便是现在的训练用GPU,中断故障率都比以前训练要低了,以前几乎每一两小时都要中断,现在每天中断几次,相比之下好一些 部分原因是validation的自动化流程做的更好了,训练时的硬件故障中断,其实有不少是重复来自于少数体质敏感易坏的GPU。于是Nvidia也一直在优化validation流程,在训练之前的测试做的更好,剔除掉这些易坏的GPU 所以现在的GPU年故障率AFR跟以前比已经低不少了,我的估算可能是<6% --------- 2. 一个更容易被忽视的问题是,训练用的GPU和推理用的GPU,折旧率是否一样? 很显然是不一样的,推理用的GPU年折旧率一般要低的多,原因是推理的平均负荷要小得多,不会因为持续性高负载高温,对延长寿命是有帮助的,一般年故障率都不会到3%甚至更低(<2%),这部分GPU的寿命以6年算,是完全符合实际情况的 那么在云上训练和推理GPU的比例如何,就决定了平均寿命折旧如何 推理GPU的比例其实是快速上升的,和训练GPU比起来,不管是模型公司还是云公司的利润其实主要也来自于推理,而长远来看,推理的比例是一定会远高于训练的 所以GPU长线按5~6折旧年限来记账,仔细来看并没有太过分 作为佐证,现在只要不是公司里最重要的部门,要做AI推理就只能用五年前的A100而并没有寿终正寝,是很常见的现象 ---------- 3. 技术的快速迭代,会让GPU在三四年之后,因为TCO使用成本占劣势而被淘汰吗? 这相当于是让GPU的残值可以忽略,比如现在A100用起来综合成本不如用最新的,所以会被淘汰吗? 今天CRWV的财报里,CEO的回答算是直接否定了这个说法: "Let me provide a tangible example of our customer relationships and the durability of our platform. We had a large, multi-year contract up for renewal in 2026." (我来提供一个关于我们客户关系和平台持久性的具体例子。我们有一个大型的多年期合同,原定于 2026 年续约。) "Two quarters in advance, the customer proactively recontracted for the infrastructure at a price within 5% of the original agreement." (客户提前两个季度,主动以原协议价格 5% 以内的价格续签了基础设施合同”) H100在合同结束之后,新合同仍然能卖到原来合同95%的价格(看到这里其实我挺惊讶的,H100的租价其实还是下降了不少的),而且连A100也全都卖光了 所以在算力紧缺供不应求的时代,这个前代GPU得不到利用从而报废的担心,在短期的几年内可能都不是太大问题 ---------------------------------------------- GPU折旧问题似乎不是大问题了,是不是意味着AI泡沫就不存在了? 如果有泡沫,那么会以什么形式出现,会从哪里出现? 我们可以从底层逻辑和互联网泡沫比较,来看这个问题 简单的说 互联网:基建端基本独立运营,基建和应用是解耦的,需求是脱节的,基建过度价格崩塌,泡沫破裂的很惨 。价值全产生在应用端公司,形成了生态错位 AI:应用端驱动基建,因为应用被基建严重限制规模,从而被迫投资基建端,算力一直紧缺 互联网的泡沫主要在基建端,大量的光纤建设之后都没人用(97%),但是AI泡沫里GPU基建却成了瓶颈,基建显然不是同一种泡沫 基建紧缺到什么程度? CRWV的订单backlog从30B直接涨到55B,各个CSP的backlog(以RPO为算,一般来说会有5~15%的丢单率)也在快速上涨 从CSP,到芯片,到数据中心DC,到电力,到存储,所有人都在喊订单挤压的太多甚至几倍,很多产业链的环节2026年全部售罄,根本做不完。 硅谷公司里基本上只要是跟AI相关的组,都背负了很重的指标,被压榨累成狗,即便是以前文化很好的NVDA也变内卷了很多 这次的需求全部是从App应用端来的,从App -> 云 -> DC数据中心 -> 芯片一层层传导,而且大家都对泡沫很忌惮,有多少订单准备多少产能(除了少数冒险家CRWV/ORCL/META),和互联网泡沫最大的区别在于,基建目前并没有超出需求建设 风险也是有的,毕竟App应用端太多创业烧的是VC的钱,这正是泡沫形成的绝佳背景。但目前来看,垂直类应用端还是有很多毛利率和增长率都很不错的代表的(比如Harvey) 所以如果真的有泡沫,目前来看只有可能来自App应用端的需求减弱 一个反直觉的悖论,App端的泡沫在于AI/Agent发展迭代的不够快!做出的东西不够好,导致营收增速跟不上 AI/Agent发展不够快,在广大行业渗透不够又部分是因为算力不够 于是为了维持泡沫不破,算力投资和军备竞赛又会继续加强 然后App端会出现大量输家被淘汰,因为算力投入而破产,这可能就是泡沫破裂的形式 这和互联网时代基建公司大量破产形成了鲜明对比 最后决出的几家寡头,有一定营收,依然会大力投入算力基建,期待赢家通吃 这就导致了AI泡沫和互联网的泡沫破裂方式可能是不同的,下游的基建风险并不大,而泡沫更偏向App应用端 另一个简单的比较方式:看谁在举债,泡沫破裂就在哪里 互联网泡沫,举债的更多在基建端,价值捕获更多在App端 AI泡沫,价值捕获在App应用端,而举债的也更多在应用端(以及云) 但反过来说,如果OpenAI和Anthropic能继续维持三年3~9倍的营收增速,基建维持5年供不应求的超级周期,并不是天方夜谭的事情 --------------------- 算力把时间借给了应用,终究要用增长归还;还不上的,就是泡沫。能还清的,就是点亮文明的下一座灯塔
fin tweet mediafin tweet mediafin tweet mediafin tweet media
中文
89
207
843
465.5K