yv
4.1K posts

yv
@yvbbrjdr
exists as 451; opinions are my own; Creator of @LANDropApp, @AthenaAGI, LMRouter; MTS @MicrosoftAI LLM training infra; Ex-@NVIDIA RISC-V sec; EN @realJerryZhou
AS8075 Beigetreten Temmuz 2013
426 Folgt9.7K Follower

benchmark分数一眼假😂肯定全是刷上去的
Tencent Hy@TencentHunyuan
👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and agent model in its size, with great cost efficiency. Give us feedback to help improve Hy3 official! 🤗 hf.co/tencent/Hy3-pr… 📖 hy.tencent.com/hy3-preview
中文
yv retweetet

AI芯片的scale up,底层=物理的限制是reticle:
光刻机一次只能曝光一个固定大小的区域,上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。
行业突破这个限制的难度非常大,接近物理极限,因为光刻的面积和精度往往不能两全(镜头等设备限制),所以只能绕开它。
早期是大GPU,但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径:一种是把系统做大,用一块更大的“硅底板”interposer把多个芯片拼在一起;另一种是把芯片拆小,再通过高速连接重新组合。
interposer本质上不做计算,只负责连接。GPU、HBM这些芯片放在上面,通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶,很大程度上不是因为算得更快,而是数据在不同芯片之间移动得更快。
但interposer本身也会超过reticle的尺寸,这时候就需要用到stitching。做法就像拼瓷砖:一块一块曝光,然后精确对齐,拼成一个整体。难点在于精度控制,边界一旦对不齐,连线就会出问题。
这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片,对时序的要求极高,任何纳米级误差都可能影响性能,所以不能用stitching。interposer因为只是布线层,没有复杂逻辑,可以容忍这种拼接带来的误差。
围绕连接这件事,行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台,把所有芯片放在同一块interposer上,连接集中在这层完成,带宽能力很强,但成本也高。另一种是不做大底板,只在需要高速连接的地方嵌入一小块桥接结构,按需提供带宽,结构更灵活,制造压力也更小。
在AI训练场景下,模型规模大,HBM带宽成为关键,整个平台需要维持极高的数据吞吐,这类设计更依赖大面积interposer。
但推理场景的约束不一样,更关注成本、延迟和并发,带宽需求往往集中在局部,不需要整个平台都维持极致带宽。这时候,把芯片拆成多个模块,再用局部高速连接拼起来,会更合适。
这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer,而是在关键位置提供高带宽连接,可以把计算、缓存、IO等模块分开设计,再按需组合。这样的结构更容易控制成本,也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说,这种灵活性很重要。
当然,推理并不完全不需要高带宽。在一些大模型推理场景里,HBM依然重要,对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中,成本和规模才是核心约束,这使得模块化和局部互连的价值变得更高。
站在26年一季度末看未来,AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大,而是把计算拆开,再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了,系统的规模则由连接能力决定。
免责声明:本文非投资建议dyor

中文











