

@mylifcc arxiv.org/pdf/2511.00739 乔治亚理工跟英特尔的合写的一篇报告有研究工具处理阶段cpu占总延迟比例。第二个我也没看到相关数据,
Marvin
2.4K posts



@mylifcc arxiv.org/pdf/2511.00739 乔治亚理工跟英特尔的合写的一篇报告有研究工具处理阶段cpu占总延迟比例。第二个我也没看到相关数据,




字节要被取代了,取代它的是 token。 Karpathy 昨天在推上回了 Python 之父 Guido 一句话: LLM = CPU,Agent = 操作系统内核。 但他补了一个很关键的细节: LLM 处理的数据单位不是字节,是 token。 这个操作系统的运行方式不是确定性的,而是统计性的。 这是一种底层计算的范式转移。 过去六十年,计算机的世界建立在字节上。 一个字符 8 个 bit,精确,确定,不会出错。你写一个 1,存进去就是 1,读出来还是 1。 整个互联网、所有软件、所有数据库,都建立在这种确定性上。 现在 LLM 来了。它的基本单位是 token,不是字节。 token 是模糊的,一个词可能是一个 token,也可能被拆成两个。 它的输出是概率性的,同一个输入跑两遍可能得到不同的结果。 这就像从牛顿力学进入量子力学。 精确让位于概率,确定让位于统计。 Karpathy 把 LLM 比作 CPU,Agent 比作操作系统内核。 如果顺着这个类比往下推: 传统计算机:CPU 处理字节 → 内核调度进程 → 操作系统服务用户 AI 时代:LLM 处理 token → Agent 编排任务 → AI OS 服务用户 底层的数据单位变了,上面的一切都得跟着变。 操作系统要重写,软件要重做,人和计算机的交互方式要重新设计。 与其说是对上一代的升级,不如说是彻底换了轨道。 字节的世界里,谁掌握更多的数据(字节)谁就赢。 token 的世界里,谁掌握更多的 token 谁就赢。 字节的时代属于互联网,token 的时代属于 Agent。 BYTE ERA ➤ TOKEN ERA

Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI
