yv

4.1K posts

yv banner
yv

yv

@yvbbrjdr

exists as 451; opinions are my own; Creator of @LANDropApp, @AthenaAGI, LMRouter; MTS @MicrosoftAI LLM training infra; Ex-@NVIDIA RISC-V sec; EN @realJerryZhou

AS8075 เข้าร่วม Temmuz 2013
426 กำลังติดตาม9.7K ผู้ติดตาม
yv
yv@yvbbrjdr·
总觉得这俩人长得很像
yv tweet media
中文
0
0
10
1.4K
yv
yv@yvbbrjdr·
@junthekey Cursor也是高估到爆炸了
日本語
2
0
3
7.4K
Jun(e)
Jun(e)@junthekey·
@yvbbrjdr 准备把Cursor打包买了好IPO上市喊价
中文
1
0
1
7.7K
yv
yv@yvbbrjdr·
Elon开始出租GPU是不是说明给自己用没啥大用了。。?
中文
34
3
192
92.7K
OwnYourAss
OwnYourAss@CaoNiMa50107590·
@yvbbrjdr 所以之前说xAI只用到不到30%,MFU极低是真的?
中文
1
0
15
9.5K
yv
yv@yvbbrjdr·
@xybuyibuer 他们MFU多少,不会是个位数吧(x
中文
1
0
2
7.1K
yibuerbu
yibuerbu@xybuyibuer·
@yvbbrjdr 按照xAI的MFU低的令人发指,还是做neocloud算咯
中文
1
0
8
7.3K
yv
yv@yvbbrjdr·
@beefcubee 对啊,自己不缺卡才会出租
中文
1
0
5
5.9K
yv
yv@yvbbrjdr·
@SemiAnalysis_ Your loser mindset makes no sense to me.
English
0
0
0
154
SemiAnalysis
SemiAnalysis@SemiAnalysis_·
Hi i'm dwarkesh! Grew up all over the US, now sf-based and always down to nerd out about AI, science & history :) a lil about me: 🟠 Host of the dwarkesh podcast 🟠 Studied at UT Austin 🟠 Just published a book on the history of AI scaling Lets grab coffee or do a fun activity this summer
SemiAnalysis tweet media
English
75
16
1.4K
231.3K
yv
yv@yvbbrjdr·
看到 Tim Apple step down,脑海里又响起《可惜不是你》。
中文
0
0
0
631
yv
yv@yvbbrjdr·
从未来的某一天开始,会不会每天都会有一个新的foundation model发布🤪
中文
0
0
2
650
yv
yv@yvbbrjdr·
@rickawsb cerebras是怎么曝光对齐的?
中文
1
0
0
392
rick awsb ($people, $people)
AI芯片的scale up,底层=物理的限制是reticle: 光刻机一次只能曝光一个固定大小的区域,上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。 行业突破这个限制的难度非常大,接近物理极限,因为光刻的面积和精度往往不能两全(镜头等设备限制),所以只能绕开它。 早期是大GPU,但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径:一种是把系统做大,用一块更大的“硅底板”interposer把多个芯片拼在一起;另一种是把芯片拆小,再通过高速连接重新组合。 interposer本质上不做计算,只负责连接。GPU、HBM这些芯片放在上面,通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶,很大程度上不是因为算得更快,而是数据在不同芯片之间移动得更快。 但interposer本身也会超过reticle的尺寸,这时候就需要用到stitching。做法就像拼瓷砖:一块一块曝光,然后精确对齐,拼成一个整体。难点在于精度控制,边界一旦对不齐,连线就会出问题。 这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片,对时序的要求极高,任何纳米级误差都可能影响性能,所以不能用stitching。interposer因为只是布线层,没有复杂逻辑,可以容忍这种拼接带来的误差。 围绕连接这件事,行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台,把所有芯片放在同一块interposer上,连接集中在这层完成,带宽能力很强,但成本也高。另一种是不做大底板,只在需要高速连接的地方嵌入一小块桥接结构,按需提供带宽,结构更灵活,制造压力也更小。 在AI训练场景下,模型规模大,HBM带宽成为关键,整个平台需要维持极高的数据吞吐,这类设计更依赖大面积interposer。 但推理场景的约束不一样,更关注成本、延迟和并发,带宽需求往往集中在局部,不需要整个平台都维持极致带宽。这时候,把芯片拆成多个模块,再用局部高速连接拼起来,会更合适。 这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer,而是在关键位置提供高带宽连接,可以把计算、缓存、IO等模块分开设计,再按需组合。这样的结构更容易控制成本,也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说,这种灵活性很重要。 当然,推理并不完全不需要高带宽。在一些大模型推理场景里,HBM依然重要,对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中,成本和规模才是核心约束,这使得模块化和局部互连的价值变得更高。 站在26年一季度末看未来,AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大,而是把计算拆开,再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了,系统的规模则由连接能力决定。 免责声明:本文非投资建议dyor
rick awsb ($people, $people) tweet media
中文
16
39
214
24K
yv
yv@yvbbrjdr·
Dwarkesh采访Jensen的对话我越看越尬,问的问题一点水平都没有,Jensen也是一直重复他已经说了无数遍的事情。在中间Jensen还被傻逼问题气笑了😂
中文
22
0
102
29.2K
yv
yv@yvbbrjdr·
做了个贴纸,有人想要svg嘛😂
yv tweet media
中文
18
4
91
8.6K