rick awsb ($people, $people)

20.8K posts

rick awsb ($people, $people)

@rickawsb

瞎读书，乱解释，买啥亏啥，宏观小学生，政经评论外卖员，正在ai中慢慢迷失自我，crypto holder, defi farmer, not financial advice 非投资建议

no where Katılım Kasım 2017

12.3K Takip Edilen148.7K Takipçiler

rick awsb ($people, $people)@rickawsb·5h

@LotusDecoder 几个loop就跑完了，差评！

中文

235

LotusDecoder@LotusDecoder·5h

@rickawsb 😅这么快，重置次数一周用掉3次了啊

中文

702

LotusDecoder@LotusDecoder·8h

openai 的显卡充足， infra 基建强啊，这样全世界人民疯狂蹬codex额度，我没卡过，也还没在 timeline 上看到有人说卡顿，缓慢。

中文

11.7K

rick awsb ($people, $people)@rickawsb·6h

英伟达也认为存储是比gpu更大的瓶颈 — nvda最新文章解读 NVIDIA 最新发布的《AI Model Co-Design》是一篇介绍 TensorRT-LLM 和 Blackwell 的技术文章，但也是一份未来几年大模型设计和 AI 基础设施的发展路线图。文章真正讨论的是如何让模型从设计之初就适应 GPU。这意味着 AI 已经进入了一个新的阶段：模型开始围绕硬件设计，而不是硬件围绕模型优化。过去大模型竞争的重点一直是 Accuracy，但本文开篇便将 AI 的目标重新定义为 Accuracy、Throughput 和 Interactivity 三者的平衡。准确率已经不再是唯一决定因素，更大的商业价值来自单位时间产生更多 Token，以及更低的响应延迟。整篇文章几乎完全围绕推理（Inference）展开，而很少讨论训练，这本身就是 NVIDIA 对未来市场重心的判断。理解全文的关键是 Roofline Model：任何程序最终都会受到两个瓶颈中的一个限制，要么是 Compute，要么是 Memory。决定程序属于哪一种的是每搬运一个 Byte 数据，GPU 能完成多少计算：算术强度高，程序受 Compute 限制；算术强度低，程序受 Memory 限制。 "Latency-sensitive decoding runs at low concurrency and is memory-bound." 推理为什么天然容易 Memory-bound？原因在于推理分成两个完全不同的阶段。Prefill 处理整个 Prompt，可以一次计算成千上万个 Token，大矩阵带来很高的 Weight Reuse，因此通常属于 Compute-bound。而 Decode 必须逐 Token 生成，下一个 Token 必须等待上一个 Token，天然无法沿时间维度并行，只能依赖不同用户之间的 Batch。随着 Batch 变小，每次生成一个 Token 仍然需要读取几乎完整的模型权重，Weight Reuse 急剧下降，GPU 更多时间花在等待数据，而不是计算。文章用 FFN 举了一个典型例子。FFN 的 GEMM 可以写成 M×K 乘以 K×N，其中 M 对应 Token 数，N 和 K 对应模型维度。推理过程中，M 会随着并发下降迅速缩小，而 N 和 K 基本保持不变。这意味着真正的计算量下降了，但需要读取的 N×K 权重矩阵几乎没有减少。文章因此得出结论："FFN latency becomes memory-bound because the GEMM-N and GEMM-K dimensions remain large as GEMM-M shrinks." 换句话说，GPU 已经不是在等待计算完成，而是在等待 Weight Read。这也是为什么文章不断强调 Memory，而几乎没有讨论 FLOPS。Roofline（天花板）一节最有代表性的三句话分别是："Workloads with low arithmetic intensity are capped by memory bandwidth."、"Latency-sensitive decoding is memory-bound."、"Memory time exceeds math time at every token count." 三句话实际上表达的是同一个意思：对于现代推理而言，真正限制系统性能的已经不是 GPU 算力，而是 Memory 带宽和 Weight Read。 MoE 可以缓解这个问题，但无法彻底解决。MoE 将 Dense 模型每层全部计算变成只激活少数 Expert，大幅降低 Compute。然而 Compute 降低的同时，新的瓶颈开始出现。首先是 Expert Parallel 带来的 All-to-All 通信，其次是 Router 带来的负载均衡问题，最后是 Weight Read 本身仍然存在。每个 Expert 依然需要读取大量参数，因此 MoE 更多是把瓶颈从 Compute 转移到了 Memory 与 Communication，而不是消灭瓶颈。这也是 NVIDIA 为什么重点介绍 Wide Expert Parallel。因为nvda希望将 Expert 分布到更多 GPU 上，可以提高整个系统的 Aggregate Memory Bandwidth，同时降低每张 GPU 保存的 Expert 数量，从而减少 Weight Read 带来的延迟。注意，这里的收益并不是来自更多 FLOPS，而是来自更多 Memory Bandwidth。这也是文章第一次明确把 GPU 扩展解释为 Memory 扩展，而不是 Compute 扩展。 nvda25年发布的Helix Parallel 则解决了另一类 Memory 问题——KV Cache。传统 Tensor Parallel 在 GPU 数量超过 KV Head 数之后，不得不复制整份 KV Cache，导致 HBM 占用迅速增加。Helix 将 KV Cache 按 Sequence 切分，而不是按 Head 切分，每张 GPU 只保存部分 KV Cache，再在 Attention 阶段交换 Sequence，随后切换回 TP×EP 完成 FFN。这意味着 Attention 和 FFN 不再采用同一种并行策略，而是各自选择最优方案。随着 Long Context 从几万 Token 增长到百万 Token，Helix 的价值会越来越大。整篇文章提出了七条设计原则，但本质上都围绕同一个目标。Near-square Matrix 提高 Arithmetic Intensity；128、256、512 对齐提高 Tensor Core 利用率；Prefer Width over Depth 增加 Weight Reuse；NVFP4 减少 Memory Traffic；Wide EP 提高 Aggregate Memory Bandwidth；Chunked Pipeline 减少 Pipeline Bubble；Helix 将 Attention 与 FFN 解耦，分别采用不同 Parallel Strategy。看似是七条独立建议，本质都是围绕 Roofline Model，目标只有一个：减少 Data Movement，提高 GPU 利用率。真正值得关注的反而是文章没有直接说出来的内容。第一，GPU Compute 的增长已经快于模型真正需要的 Compute，未来继续增加 FLOPS 的边际收益正在下降。第二，推理时代的瓶颈已经从 Compute 转向 Memory，HBM、KV Cache、Weight Read 和 Memory Traffic 将越来越重要。第三，GPU 的竞争开始演变成整个系统的竞争，包括 HBM、NVLink、TensorRT、并行策略和软件栈，而不仅仅是单颗 GPU 的性能。第四，AI 基础设施未来真正需要优化的对象，不再是计算，而是 Data Movement。总结来说就是：在越来越多的 AI 推理场景中，存储（准确地说是 Memory、Memory Bandwidth、Weight Read 和 Data Movement）已经比 GPU 算力更容易成为系统瓶颈。作者背景：这篇文章的七位作者几乎全部来自 GPU Architecture、TensorRT-LLM、Distributed Inference、Model-Hardware Co-design 和 Compute Architecture 团队。

rick awsb ($people, $people) tweet media

NVIDIA AI@NVIDIAAI

As AI models continue to grow in scale and capability, shaping a model matters just as much as its size. We're introducing a new series on AI Model Co-Design exploring the synergy between models and hardware. The first post focuses on how model dimensions influence GPU performance, and how the right design choices improve both system throughput and per-user responsiveness. You can read it here: nvda.ws/452Idiy

中文

178

31.5K

rick awsb ($people, $people) retweetledi

Tz@Tz_2022·2d

我这里再放一个暴论：当前所有以节约 token 为目标的各种 skill / harness，都是阶段性产物，很快就会扫入历史的垃圾堆。。。这就是短消息按字数收费的那个时代，在钻研怎么发尽可能少字数的短信把事说清楚的那些奇技淫巧。。。

中文

100

807

141K

rick awsb ($people, $people) retweetledi

Bay AI Circle@bayai_circle·23h

🔴 今晚直播｜为什么 Crypto 需要 AI？ AI 正在重新定义软件，而 Crypto 正在重新定义价值网络。当两者相遇，会创造怎样的新机会？今晚，Bay AI Circle 邀请到 @ChandlerGuo 做客，与你一起畅聊： 🔹 AI 与 Crypto 的真正交汇点 🔹 AI Agent 与 Web3 的未来 🔹 AI Native Crypto Ecosystem 的新机遇 🔹 创业者现在应该如何布局 📅 今天 8:00 PM (PT) 👇 点击下方链接，预约提醒（Set Reminder），直播开始第一时间加入！ x.com/i/spaces/1RJjp… #AI #Crypto #Web3 #AIAgents #BayAICircle

中文

5.8K

rick awsb ($people, $people)@rickawsb·1d

@iamai_omni 未来先得属于人，然后才能属于年轻人

中文

983

✧ 𝕀𝔸𝕄𝔸𝕀 ✧@iamai_omni·2d

因为神经网络的可塑性更强，未来总是属于年轻人的，现场感受到那种蓬勃向上的生命力真的很强，这是一种能打破文明进程中遍历性破缺的力量。

🐹_Leslie鼠鼠@LeslieLi92210

很荣幸！今天晚上能在深圳和十二位朋友见面由TC组局的饭局（感谢tc姐我们才能吃上洪大厨）@TC8880 希望大家可以多多支持predict.fun ！！带着我们00后大军蹭了顿饭熟悉的天策 meme 小芦牛肉粉猴子樱花 howe 见到了很久不见的子时哥 Ray 老齐 wise 今天真的很疲惫，但和大家相处的过程还是蛮放松，也学到了很多！嗯…..收获满满的一天 @silverfang88 @Leobai825 @TC8880 @beefnoode @web3houzi @Web3Dc888 @WiseInvest513 @luyisikai @0xsakura666 @Ray80230 @0xcryptoHowe @oooodjdjd

中文

6.4K

rick awsb ($people, $people)@rickawsb·1d

@ShanghaoJin @Pathusa 😂已经是了

中文

413

Herman Jin@ShanghaoJin·2d

@rickawsb @Pathusa 🤣 你这样说等等你帖子下面全是同城xx上门

中文

1.8K

Pathfinder@Pathusa·2d

想来想去，还是推掉了一个有可能年入数百万（人民币）的广告机会，有些钱不能赚，和我准则相背。我还是踏踏实实当我的臭炒币的。

中文

27.6K

rick awsb ($people, $people)@rickawsb·2d

@ShanghaoJin @Pathusa 别，我的党性经不住糖衣炮弹或者美色诱惑🤣

中文

1.6K

Herman Jin@ShanghaoJin·2d

@Pathusa 你是我最尊敬的币圈人之一，单人品一条就没得说还有@rickawsb 其他漏掉的别喷我，每个圈子都有牛人

中文

7.6K

rick awsb ($people, $people)@rickawsb·4d

@ShanghaoJin @orstep3oxj @xueyuanjoey 恶意提问！

中文

1.8K

Herman Jin@ShanghaoJin·4d

@orstep3oxj @xueyuanjoey 请问：DUV做7nm 5nm是如何做到良率稳定价格不高2倍4倍的？这是一个物理/数学问题，我每次问，很多爱国者都当政治语文题回答

中文

17.9K

Herman Jin@ShanghaoJin·4d

华虹证明了：中国晶圆厂只要不跟着任教主“邪修”多次曝光，还是经营不错的但同样成熟制成华虹PB已经显著高于GFS STM等等了（技术不如）期待⚡️订单溢出，下半年让老登晶圆厂全部重定价

Macro_Lin｜市场观察@LinQingV

据传三星把4nm、5nm和车用8nm对新客户的报价上调15%，4nm产能连明年的都已排满。一个常年报价比台积电低两三成的价格竞争者开始挑单，代工市场的买方卖方已经易位。中芯华虹的成熟制程提价大概率延续到2027年，订单外溢已经落到报表上，华虹一季度净利润同比增长513%，12英寸投片持续超过设计产能。关键是，消费电子和汽车客户的利润还承受得起几轮涨价。

中文

170

95.1K

rick awsb ($people, $people)@rickawsb·4d

@as42tsx 不够好？

中文

4.2K

as42@as42tsx·4d

@rickawsb 实测偏差蛮大

中文

rick awsb ($people, $people)@rickawsb·4d

meta刚发了一个性能超过opus4.8价格比glm低的模型？我擦

中文

45.8K

rick awsb ($people, $people)@rickawsb·5d

@Skylinee yep

306

SKYLINE🥷@Skylinee·6d

@rickawsb we really entering the compute squeeze era.

English

291

rick awsb ($people, $people)@rickawsb·4 Tem

ai带来的加速是前所未有的，各行各业都将面临巨大的重构对于长期持有价值投资者来说，只有数学的必然和物理的极限，才可能是真正的湖城河其他的一切，都可能被颠覆

中文

12.9K

rick awsb ($people, $people)@rickawsb·6d

@emollick it's already too late

English

2.3K

Ethan Mollick@emollick·7 Tem

This is a key reason I don’t expect the flow of frontier open weights models to continue indefinitely, or even for very much longer. reuters.com/world/beijing-…

English

464

184.2K

rick awsb ($people, $people)@rickawsb·3 Tem

有人把ai比做电力革命，这是对硅基文明的侮辱爱迪生开启了电力革命而ai正在批量生产爱迪生，批量生产爱因斯坦，甚至是批量生产远超爱因斯坦能力的人。 ai正在生产数据中心里的天才国度

中文

9.7K

rick awsb ($people, $people)@rickawsb·3 Tem

@skyguoCypherium 我还在

中文

2.4K

Sky G.cph@skyguoCypherium·2 Tem

Web3连精神病都不碰了

Max For AI@MaxForAI

唉，时代的疯子

中文

86.6K

rick awsb ($people, $people)@rickawsb·3 Tem

论文：arxiv.org/pdf/2606.30616

中文

3.8K

rick awsb ($people, $people)@rickawsb·3 Tem

Agent Horizon Scaling：参数不足运行（时间）补？过去几个月，越来越多的工程优化让小模型能力不断逼近前沿模型，至少是前沿开源模型。上海 AI Lab 的《Scaling the Horizon, Not the Parameters》最新论文把这点又推进到了新的高度：通过Horizon Scaling（扩大 Agent 的工作跨度），论文证明了，在特定任务上35B 可以打败 1T参数模型，更重要的是，很多复杂任务的能力，并不一定来自更大的模型，而可以来自更长的执行过程。因此，论文认为，gent 的能力开始变成：基础模型能力 × Runtime Compute × Horizon。论文将大量必须存放在 HBM 中的知识，开始放到： Internet SSD Database Browser Tool 模型需要的时候再去获取。从系统架构来看，这其实就是一种新的 Memory Hierarchy。过去： HBM → Forward → Answer 未来： HBM → Search → Tool → Verifier → Reflection → Answer 知识开始从 HBM 外迁，HBM 越来越像 CPU Cache，Internet 越来越像 Hard Disk，模型越来越像 CPU。这一方面是在"用 DRAM 和 SSD 补 HBM"，另一方面更是在用 Runtime Compute 补 HBM。大参数大模型需要几十 GB 参数记住 API、论文、网页、代码，使用论文的方法可以搜索 → 阅读 → 理解 → 验证。知识不用提前存进去，而是在运行时动态计算出来。这其实和计算机体系结构的发展规律完全一致：CPU 有 Cache、DRAM、SSD 分层，用更多访问时间换更大的存储容量。 Agent 也是一样。论文把经典的 Time-Space Tradeoff 引入了 AI 系统。不过，需要强调的是，论文的方法替代的是模型的知识（Knowledge），不是能力（Capability）。模型参数里面其实有两种东西。第一种是知识，例如 API、论文、GitHub、新闻、数据库。这些越来越可以运行时获取。第二种是能力，例如推理、规划、世界模型、抽象思维。这些目前仍然主要来自更大的基础模型。因此，Agent 并没有否定 Parameter Scaling，而是在放大缩放定律：基础模型越强，每一次搜索、每一次规划、每一次代码修改都会更准确，整个 Agent 的能力也会随之提升。 Agent = Foundation Model × Runtime Compute × Horizon × External Memory。这就是 Rich Sutton 的《The Bitter Lesson》的另一种路径实践。过去：Parameter Scaling。未来：Parameter Scaling + Horizon Scaling。

中文

8.5K

rick awsb ($people, $people)@rickawsb·3 Tem

@emollick By the time exponential growth becomes the dominant investment narrative, the economy is likely nearing the top of the current cycle.

English

1.2K

Ethan Mollick@emollick·2 Tem

AI implementation advice on my X feed is divided between those who "feel the exponential" and those whose (unconscious?) mental model of AI is that this is about as good as it is going to get, so it is time to build around the limitations & cost structures of today's capabilities

English

268

26.6K

rick awsb ($people, $people)@rickawsb·3 Tem

7月3日，阿里达摩院联合中国人民大学、中国科学院大学等发布首个超导材料发现AI智能体Elements Claw，预测出6.8万个可能的超导材料，其中4种全新材料已合成并证实存在超导性。

rick awsb ($people, $people)@rickawsb

AI，泡沫即飞轮？ MIT经济学家 Ricardo Caballero 在最新工作论文《Speculative Growth and the AI "Bubble"》中提出了一个非常有意思的观点：真正的问题不是 AI 是不是泡沫，而是泡沫本身能否创造未来的基本面。传统金融认为，估值来自基本面。未来现金流决定今天的价格。如果价格远远高于现金流，那就是泡沫。这几乎是所有价值投资、DCF模型以及有效市场理论共同遵循的逻辑。 Caballero则把因果关系补充成了一个闭环。价格不仅反映未来，也塑造未来。高估值带来融资能力，融资能力带来资本形成，资本形成提高生产率，生产率最终又改善未来现金流，于是原本看似脱离基本面的估值，反而成为未来基本面形成的一部分（有点像索罗斯的反身性？）。论文认为，当估值能够影响投资时，价格上涨本身就可以帮助创造未来的基本面。这一逻辑会在 AI 上成立的关键在于，AI 不是传统意义上的资本。普通资本遵循边际收益递减。建更多工厂，最终会遇到需求不足、产能过剩，资本回报越来越低。但 Caballero 认为，AI 更接近一种能够持续扩张的"劳动型资本"。GPU、模型、Agent 并不仅仅增加机器数量，而是在不断增加整个经济中的有效劳动。论文中直接将 AI 建模为能够执行原本由劳动完成任务的资本，因此资本增加的同时，劳动能力也同步扩大，资本收益递减被明显削弱。如果继续深究，还有更加重要的发现：AI 投资改变了收入分配。越来越多收入流向资本所有者，而资本所有者天然拥有更高的储蓄倾向。储蓄增加意味着长期资金供给增加，长期利率下降，更大的资本存量反而更容易被整个经济承载。论文称之为 Funding Feedback。资本形成越多，未来融资成本越低；融资成本越低，又进一步支持更多资本形成。整个系统开始出现正反馈，而不是传统增长模型里的负反馈。于是经济开始出现两个完全不同的长期均衡。一个世界里，AI 投资始终不足，资本形成缓慢，生产率长期维持低增长。另一个世界里，AI 获得持续融资，大规模建设数据中心、GPU、模型和 Agent，最终形成新的高资本、高生产率均衡。真正有意思的是，高资本均衡虽然存在，却无法仅靠理性市场自动到达。论文证明，从今天这个低资本状态出发，即使所有投资者都是完全理性的，也不会主动跳到那个更好的未来。原因很简单。今天没有足够资本，就不会有未来的高增长；没有未来高增长，今天就不会有高估值；没有高估值，也就没有资本形成。整个系统陷入自我锁定。泡沫恰恰打破了这个循环。高估值让企业能够融资，融资建设更多 GPU，训练更大的模型，部署更多 Agent，最终真正提高整个经济的生产率。泡沫不是长期均衡，而是通向长期均衡的桥梁。这也是论文为什么反复强调 Fragility。真正的问题从来不是泡沫会不会破，而是泡沫会不会破得太早。如果资本还没有形成，融资就停止，那么整个 AI 建设就会中断，未来增长也随之消失。如果在泡沫破裂之前已经完成了足够多的数据中心、模型、Agent 和基础设施建设，那么即使估值最终回归正常，高资本均衡依然能够维持。论文明确指出，关键不是修正是否发生，而是修正是否发生得过早。互联网就是一个典型例子。2000 年互联网泡沫彻底破裂，但光纤、服务器、软件、数据中心和互联网人才全部保留下来。泡沫消失了，互联网革命却真正开始了。AI 很可能也是类似过程，只不过留下来的不只是网络，而是智能本身。不过，我认为 Caballero 的框架还能再向前推一步。论文把 AI 建模成"可复制的劳动"，但现实中的 AI 正越来越接近"可复制的科研人员"。如果 AI 不仅能够替代劳动，还能够参与科研、写代码、设计芯片、发现新材料、研发新模型，那么它改变的不只是生产函数，而是创新函数。过去，创新能力主要取决于科学家数量、工程师数量以及优秀人才数量，因此重大技术革命通常需要几十年积累，这也是康波周期长期存在的重要原因。并不是经济天然每六十年发生一次革命，而是创新资源本身增长太慢。 AI 第一次开始打破这一约束。未来的创新能力，不再只是依靠人脑（Human brain），而可能是 Human + Millions of AI Agents。更进一步，创新能力甚至可能只依赖 ai（算力）。算力持续增长，创新能力也持续增长。创新第一次变成了一种可以资本化、规模化扩张的生产要素。如果再结合今天正在快速发展的 Coding Agent、Research Agent、自动科研以及递归自我改进（RSI），这个反馈会变得更强。更多 AI 带来更快科研，更快科研产生更好的模型，更好的模型继续提高科研效率，形成真正意义上的 Intelligence Flywheel。创新速度本身开始加速，而不仅仅是生产效率提高。这也是为什么我一直认为，AI 的经济回报很可能符合 "Slowly, Then Suddenly"。今天大家看到的是 GPU 投资、模型训练、数据中心建设，ROI 看起来并不高，于是很多人开始怀疑 AI 是不是泡沫。但这些投资真正购买的，并不是今天的利润，而是未来的智能资本。当模型能力跨越某个临界点，大规模 Agent 开始进入企业，劳动替代开始发生，生产率可能出现非线性的跃迁，过去几年看似过高的估值，也开始真正兑现。这意味着，Caballero 所提出的反馈环路：估值 → 投资 → 资本形成 → 基本面未来很可能进一步演化为：估值 → 投资 → 算力 → 智能 → 创新 → 更多 Ideas → 更高生产率 → 更高利润 → 更高估值这里真正形成正反馈的不只是资本，而是整个社会的创新能力。如果这一过程成立，那么 AI 带来的变化可能不仅仅是一次新的技术革命，而是改变了技术革命本身的产生机制。历史上的康德拉季耶夫长波之所以持续四五十年，很大程度上并不是经济规律决定的，而是因为创新资源始终稀缺：科学家有限、研发能力有限、知识扩散缓慢。AI 正在改变这一前提。未来，我们或许看到的不是一个越来越短的康波，而是在同一个 AI 平台上持续涌现多个产业革命：AI 药物、AI 材料、AI 芯片、AI 机器人、AI 生物制造……创新开始工业化，技术革命开始连续发生。如果说熊彼特让创新成为增长的核心，罗默让知识成为增长的核心，那么 RSI 与 Caballero 共同指向的，可能是下一阶段增长理论的核心命题：之前的熊彼特的经济周期理论，依靠破坏式创新，破坏式创新，依靠人脑和偶尔出现的天才；而 AI，第一次让这样的天才本身成为可以投资、可以批量制造、可以不断增强、而且还可以不断自我强化的资本。从这个角度来看目前无论多大的泡沫，在指数级增长的创新面前，都可能会被很快消化。

中文

9.2K

Keşfet

@LotusDecoder @ChandlerGuo @iamai_omni @ShanghaoJin @Pathusa @orstep3oxj @xueyuanjoey @as42tsx