AI美猴王

2.7K posts

AI美猴王

@jellchou

十年AI算法，不知名公司CTO，AIGC实践者，AI时代探索智能产品构建。

Tokyo-to, Japan Katılım Mart 2015

724 Takip Edilen527 Takipçiler

AI美猴王 retweetledi

Xudong Han@Xudong07452910·1d

🌙 ARIS：让 AI 在你睡觉时继续搞科研的神器！一个极致轻量的自动科研工具，可以让 Claude Code / Codex / Cursor / Trae / 国产模型自动进入科研工作流： 📚 读论文，找 weakness 💡 生成 idea，设计实验 🧪 跑实验，不断迭代结果 📝 全流程写论文，自动准备 rebuttal 📊 生成 slides / poster 它最有意思的地方是：不是搞一个笨重框架，而是用纯 Markdown skills 把科研流程拆开，无框架、无锁定，换模型也能用。白天你负责判断方向，晚上 AI 负责疯狂探索。一觉醒来，论文可能真的升级了。🚀 github.com/wanshuiyin/Aut… #AI科研 #ClaudeCode #AutoResearch #Codex

中文

107

524

29.3K

AI美猴王 retweetledi

Geek Lite@QingQ77·16h

一套生产级的开源水培自动化控制系统，填补业余 DIY 装置和昂贵工业自动化之间的差距，支持 ESP32 硬件、MQTT 遥测和实时 Web 仪表板。 github.com/40rbidd3n/Hydr… HydroponicOne 是水培种植的 IoT 全套方案。ESP32 负责读 pH、EC、水位、温湿度这些传感器数据，走加密 MQTT 送到 Fastify 后端，React 前端通过 WebSocket 实时刷新。存数据用 PostgreSQL 管配置、InfluxDB 管时序数据。固件升级走 RSA 签名 OTA，安全可靠。项目不光有代码，还给了 PCB 设计、3D 打印外壳和接线图，能直接对接 Home Assistant 和 Telegram 告警。

中文

169

6.9K

AI美猴王 retweetledi

Berryxia.AI@berryxia·6h

兄弟们，今天必需卧槽一下了！昨晚发完这条推文后，终于等到了… xAI算法开源后，终于有人把源码真正啃完了。岚叔@LufzzLiz （某大厂架构师，多模态与模型私有化领域专家）直接上手，把xai-org/x-algorithm仓库的每一行结论都追溯到源码，用Opus-4.7花了两天时间，搞出了一个完整wiki。所有页面都有明确源码出处，跟市面上很多“AI批量生成”的解读完全不一样，直接Wiki库整起来了… 就是不一样啊！这才是真正有价值的算法拆解。 GitHub仓库：github.com/cclank/x-algor… 在线阅读地址：#index" target="_blank" rel="nofollow noopener">lansu-wiki-web.lank.workers.dev/wiki/cclank/x-…

Berryxia.AI@berryxia

xAI 算法开源后，解读内容铺天盖地。我敢说一句颠覆多数人认知的实话：市面上 95% 的分析，是 AI 批量生产的同质化废话，连源码文件名都没翻过一次。「多互动」「多发帖」「账号要垂直」这种谁都会说的话，说了等于没说。真正藏在 xAI 算法深处的机制，大多数人连名字都没听过，却在教别人怎么运营 X。你见过哪篇解读，是真的牛逼有价值，欢迎推荐！如果没有我就来个收费的文章😁 绝对牛逼！开玩笑，我也是每天在一点点的啃~~ 但是真的惊喜不断！

中文

11.1K

AI美猴王 retweetledi

欧阳拽白@OuYangZhuaiBai·4h

梁文峰的炒股人生线： 1985年・出生 - 生于广东湛江吴川市覃巴镇米历岭村，父母均为小学语文老师，家境普通。 1990s–2002 年 · 早年 - 小学：从小擅数学，爱拆解电子设备。 - 初中/高中：被称“数学神童”。 - 2002 年高考：总分 806 分，吴川一中状元、湛江第14名、广东约前100名。 2002–2006 年 · 浙大本科 - 就读浙大电子信息工程：大学生电子设计竞赛全省第一名/全国一等奖。 2007–2010 年 · 浙大硕士 - 2007 年：浙大通信工程硕士（机器视觉方向）。 - 2008 年（23岁，研二）：以8万元本金开始A股自动化交易，正式试水量化。 - 2010 年：硕士毕业；当年股市低迷，凭自动化策略盈利约100万，获“校园股神”称号。 2010–2013 年 · 职业散户 - 未就业、未创业，全职炒股。曾在成都租房闭门交易三年，持续打磨量化策略。 2013–2015 年 · 机构化起步 - 2013 年：与浙大同学徐进成立杭州雅克比投资管理有限公司，从散户转向机构化，仍以策略研发为主。 2015–2023 年 · 幻方量化 - 2015 年：创立杭州幻方科技（幻方量化）；对外称2008–2015年8万做到1亿（7年1250倍），引发热议。 - 2016 年10月：首个深度学习AI策略上线实盘，启用GPU集群替代CPU。 - 2017 年：全面AI化；管理规模破30亿，奠定头部量化地位。 - 2018 年：获私募金牛奖。 - 2019 年：规模破100亿；自研萤火一号AI集群（1100卡，投资近2亿）。 - 2021 年：规模破1000亿；投10亿建萤火二号（约1万张A100）；年底产品普遍回撤超10%，开始主动缩规模。 - 2023 年底：规模降至约450亿；监管趋严、高频受限，算力闲置，寻求新方向。 2023–2025 年 · 跨界AI（DeepSeek） - 2023 年7月：创办杭州深度求索（DeepSeek），主攻通用大模型。 - 2024 年5月：发布DeepSeek‑V2（混合专家）。 - 2024 年12月26日：开源DeepSeek‑V3；训练280万GPU小时、成本约4000万，春节期间走红。 - 2025 年1月20日：发布DeepSeek‑R1，数学/代码/推理性能对标OpenAI o1，并开源权重与技术，全球引发震动；当月出席总理座谈会、登上新闻联播。

中文

265

79K

AI美猴王 retweetledi

Jason Zhu@GoSailGlobal·5h

CAD 又可能被颠覆一次，这回动手的是 MIT 实验室过去两年 AI 图生 3D 的 demo 一周一个工厂没有一家在用输出的都是 mesh 一坨封死的三角面片工程师想改一个螺孔尺寸整张图得重画设计意图全丢了只剩外壳 GenCAD 换了思路输入还是一张图输出换成了 CAD 命令序列点线拉伸旋转倒角跟你在 SolidWorks 里手动操作的步骤完全一样丢进 Fusion 能直接打开接着改 · mesh 是给眼睛看的，CAD 命令是给机床看的 · 四步管线第一、 transformer 把 CAD 命令序列编码成 latent 第二、对比学习把图像和 CAD 的 latent 拉到同一个空间（CCIP 等于 CAD 版的 CLIP）第三、在 CAD latent 上跑 diffusion 用图像 latent 做 condition 第四、解码回参数化命令顺手解决了一个老问题大型 CAD 库里搜模型以前只能靠文件名和 tag 现在能用图搜了 · 作者 Ferdous Alam 和 Faez Ahmed 发在 TMLR 2025 GitHub 1.4k star 代码 Docker 预训练权重全开 github.com/ferdous-alam/G…

How To AI@HowToAI_

MIT open-sourced an AI model that converts photos into fully editable CAD programs and it quietly kills the $150/hour CAD modeling industry. Just upload a sketch or photo and it generates the full parametric 3D model. exportable as STL. ready for manufacturing. → no SolidWorks license → no weeks of modeling → no CAD engineer needed 100% Open Source

中文

3.6K

AI美猴王 retweetledi

一起发财@yiqifacai·23h

最近火热的台积电的三层蛋糕AI平台架构，到底说了什么？【是什么】：我们可以把它理解为先把很多小芯片堆高（SoIC），再把不同类型的芯片装成一块大模块（CoWoS），最后用光纤把这些模块高速连起来（COUPE），一起为 AI 提供又快又省电的算力。【优势】：用三层不同方式把芯片“堆得更高、连得更紧、传得更快”，在功耗差不多的前提下把 AI 算力上限大幅抬高【利好哪些板块】掌握先进封装（SoIC/CoWoS）、硅光子与 CPO/COUPE 光互连的芯片设计公司、代工厂和光器件/封装供应链（包括海外和大陆）会成为最大受益者。本质：台积电想利用自己的堆叠和整合的技术优势，定义未来5-10年的架构体系。时间点：2026-2028 测试，验证，小批量。长期影响：会淘汰一批没有先进封装能力，先进制造能力且非上游材料提供者的公司。

中文

12.9K

AI美猴王 retweetledi

川沐｜Trumoo🐮@xiaomustock·1d

关于 $MRVL 这篇文章写得非常好非常专业，我纯引用，因为这方面我也不懂，所以没做任何改动。但是把 $MRVL 跟英伟达 $NVDA 和博通 $AVGO 放一块比较的时候， $MRVL 已经赢麻了。

川沐｜Trumoo🐮@xiaomustock

x.com/i/article/2055…

中文

143

522

176.7K

AI美猴王@jellchou·1d

@cuichenghao 同样的事碰到过，最后到物业调监控，发现外卖员拿走了

中文

8.6K

作家崔成浩@cuichenghao·2d

一网友出差过生日，午夜自己给自己点了一份生日蛋糕送到酒店。开门拿并没有，调取监控发现，送餐员放下拍照后直接拎走。

中文

404

248

3.2K

2.1M

AI美猴王@jellchou·1d

@Bill16370646 @StateInterOffic @wangjupaian 像老江的啊

日本語

Bill@Bill16370646·2d

@jellchou @StateInterOffic @wangjupaian 乾隆御笔。

日本語

王局拍案@wangjupaian·3d

补两张图：习近平带川普参观中南海静谷那幅红色对联很抢镜！

王局拍案@wangjupaian

【福克斯完整版：习近平带川普参观中南海花园，记者5分钟后被清场】5月15日上午，习近平带川普参观中南海花园，双方只准翻译陪同，两人进入花园5分钟左右，记者被清场离开。媒体拍到的不多片段中，习近平强调：这里极少有人来。川普则说，太美了，我不想走！

中文

200

195.4K

AI美猴王 retweetledi

齐博千@Web3Dc888·3d

目前最喜欢的基金经理就是易方达的!仓位真的牛逼，进可攻退可守，年华也跑赢纳斯达克不少! 如果纳斯达克跌了，额度开放的更多就选择下面里面的基金就好! 如果不是牛市很多频繁调仓的人都跑不赢ETF的!

中文

630

92.9K

AI美猴王@jellchou·2d

@StateInterOffic @wangjupaian 一看就是老江的字

中文

1.9K

中国网络秦始皇@StateInterOffic·2d

@wangjupaian 我不太识字，可不可以告诉我上面写的是什么，谁写的

中文

10K

AI美猴王 retweetledi

fin@fi56622380·3d

每年的Nvidia GTC大会，都会带来一些技术范式转新移概念，作为全业界的新技术标杆各家在GTC之后都会改roadmap去抄作业总有人问，AI芯片下一波结构性趋势转变的机会在哪里？这几个月范式转移带来的结构性转变机会之一，就是AI异构推理，而以Cerebras为首的SRAM路线初创，就这样走到了新趋势前沿 ------------------------ SRAM路线的公司生态位在哪里，得先看genAI推理的不同阶段workload特点主要分成三个部分： prefill：计算强度特别高，对memory带宽速度要求不高，对memory size要求中等偏高 decode阶段的attention部分：计算强度中等，对memory带宽速度要求特别高（对kv cache的反复读写），对memory size要求特别高，因为batch size的变大造成了kv cache的线性增长 decode阶段的FFN部分：计算强度中等，对memory带宽速度要求特别高（模型权重的反复读取），对memory size要求中等偏高（模型权重） SRAM路线的芯片特点也很清楚：除了memory带宽做到了极致，其他方面都是严重缺陷，本质上是用计算强度和memory size做不大这两个劣势，换取了极致的memory带宽速度 --------------------- 再来分别看AI推理的三个阶段，SRAM的适用度 prefill：SRAM计算强度无法做的很高，因为整个芯片上的SRAM面积占用太大，计算模块面积受限，所以prefill是弱项 decode阶段的attention部分：SRAM memory带宽要求高能达到，但是SRAM memory size很小达不到batch的要求，所以SRAM做attention只能满足一半需求 decode阶段的FFN部分：SRAM memory带宽要求高能达到，memory size要求中等，SRAM芯片通过互联通信的优化，能勉强解决memory size的问题，虽然代价很高，但ROI在某些场景下还是能算的过来的 ---------- 所以SRAM路线的加速器在AI异构推理的适用范围也很清楚： prefill部分别想了，性能垃圾，经济性垃圾 decode阶段的FFN部分，属于努努力加大成本还能够得着 decode阶段attention部分，kv cache对memory size要求太高，批量处理需求实现过于高昂，让Cerebras昂贵的230万美元一片，45片连成一起的奢侈的一亿美元的系统做成专属的超级VIP服务，完全是经济性灾难想象一下，一两个用户agent flow做coding任务花了1~2M context length，就得耗费230万美元一整个cerebras的44GB SRAM来做KV cache，不然速度就上不去，这是什么样的奢侈服务 ------------- 所以结论简直不能再明显了：Cerebras如果单独做全栈AI推理（prefill + decode ATTN + decode FFN），经济上是走不通的，没有未来的因为Cerebras成本是非常惊人的，即便是他们毛利率压的如此之低，每台 CS-3 系统的隐含租金还是要 $41.96/小时，是B200的差不多十倍租金，更不要说CS-3还得很多片连起来做LLM推理，租金要再乘以很多倍。这也是为什么SRAM路线经济效益如此差的原因，Nvidia在GTC已经清晰的指出了这一点（如图）。鼓吹SRAM路线以后取代HBM？那是痴人说梦，SRAM的scaling已经撞墙的情况下，每代芯片上的SRAM密度已经很难提升，在memory size这个维度上，HBM的指数型增长只会更加和SRAM拉开差距。即便是memory 带宽这个维度上，HBM也在指数型增长，缩小和SRAM的差距所以Nvidia的解法非常简洁而优雅：decode阶段的FFN部分交给SRAM路线，其他部分交给传统HBM GPU，把整个pareto frontier往右上角推进了很多 Rubin + LPX最高速度突破1000 token/s的同时，还能让整体throuhput仍然能保持一定的商业价值（这点很重要）。要知道如果在Blackwell要跑到400~500 token/s高速，只能同时处理很少的几个请求，这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s，也能保持一定的batch size(吞吐量)了，终于也能产生商业价值了，图里说在400 token/s的速度下，Rubin + LPX把吞吐提升了35倍，就是典型的token经济学，这个token高速度下，从Blackwell算提升了35倍的商业价值 --------------------- 这个解法在GTC公布标准答案之后，甚至更早在收购Groq的LPU之后，大家就已经开始做异构推理这个方向抄作业的努力了 Google的TPU找了Marvell做SRAM部分 Amazon AWS的trainium找了Cerebras做SRAM部分字节的AI asic找了高通做SRAM部分未来我们一定会看到越来越多类似的消息而这就是Cerebras在经济上可持续的最好道路：不要硬扛全栈AI推理，只做自己擅长的部分，在AI推理中和主流AI ASIC合作，争取能把自己SRAM芯片融入其他家的AI推理的decode FFN环节这也是为什么，Cerebras长期发展的关键在于和aws trainium的disaggregate inference能整合到什么程度如果只是目前爆出的Trainium做prefill和Cerebras做decode分离，技术上实现难度要小的多，但是这样经济上仍然不划算，只能是战略布局，能有一定的市场，但无法真正产生规模化竞争力而走Nvidia路线，深度整合两家优势，需要不少时间的技术整合，难度不小，但回报是值得的。解法一：trainium做prefill和decode attn，Cerebras做decode FFN。或者解法二：Cerebras做草稿模型，trainium做验证,。无论是哪种解法，市场竞争力都大太多了 -------------------- 和主流AI ASIC这样的合作方式，是减小了SRAM路线的市场规模TAM吗？不，这才是SRAM路线的公司唯一的长期可持续化增大市场规模的道路，因为AI异构推理趋势一定是未来，提前在这个增长的未来蓝图中找到属于自己的拼图位置，才能跟着市场一起增长 SRAM路线公司一旦融入任何主流AI ASIC的异构推理环节，身价都会暴涨，因为出货量的TAM完全不是一个数量级了不然的话，AI异构推理在token速度（不是throughput）这个维度上，一定会持续的蚕食SRAM路线的速度优势，SRAM路线AI全栈推理沦为昂贵的玩具是注定的结局

fin@fi56622380

复盘GTC 2026：Nvidia补上了短板，大幅削弱了各个AI 加速器 startup最大的优势--token速度回顾这篇GTC前瞻，方向预测和技术路线写的没啥大问题，最后Nvidia给出的解法比我想象的更为精巧：不仅是prefill放在GPU上，decode阶段Attention阶段也放在GPU上(这点没想到)，只把decode的MLP阶段放在LPU上做这和MatX的解决方法有异曲同工之妙，Weights放在SRAM上，KV cache放在HBM上这样的好处在于，Attention阶段需要巨量的KV cache(动辄几十上百GB)，本就是LPU SRAM无法承受的，把这部分放在HBM上是更合理的选择正应对了未来agentic flow里多轮对话上下文长，long context KV cache爆炸的趋势，即便是高batch并发数产生巨量KV cache也能让HBM容纳。随着上下文长度变长，所有的增量成本都在GPU HBM上，LPX是完全静态的不受影响，只和模型本身大小相关让LPU宝贵的128GB SRAM只承担FFN/MLP阶段的固定weights，而FFN阶段占GPU整个decode阶段的50%以上，如果是短context甚至能占比超过60%，FFN这部分在LPU上得到数倍大幅加速，是很划算的这样设计的部分drawback可能在于，一般transformer的decode阶段有很多层，比如以80层为例，那就是attention层和FFN要重复80次，也就是说，tensor要在GPU和LPU之间互相传递80次，虽然中间是low latency Nvidia Spectrum-X Ethenet，但生成一个token需要80次GPU-LPU往返延迟累加，这也是不小的损耗这样的新架构，按attention和FFN各占40%/60%来算，FFN阶段加速几倍，极限最高速度来说，整体加速能达到一倍以上（和Rubin NVL 72比）最高速度突破1000 token/s的同时，还能让整体throuhput仍然能保持一定的商业价值。要知道如果在Blackwell要跑到400~500 token/s高速，只能同时处理很少的几个请求，这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s，也能保持一定的batch size(吞吐量)了，终于也能产生商业价值了图里说在400 token/s的速度下，Rubin + LPX把吞吐提升了35倍，就是典型的token经济学，这个token高速度下，从Blackwell算提升了35倍的商业价值 ------- Nvidia补上了这块短板之后，对各个startup（比如Cerebras, d-Matrix, MatX, SambaNova）有什么影响呢？ startup最大的卖点就是特定场景下的速度优势，或者成本优势在大batch（多请求）场景下，GPU的算术密度(arithmetic intensity)越过ridge point之后利用率接近很高，成本/速度都对startup有显著的优势。所以这些startup能存活，最大的场景是：客户的workload集中在小batch、低延迟，速度极快，不在乎极高成本。GPU在这里效率极差，也达不到对应的token速度 Cerebras：极致的速度。wafer-scale尺寸巨大的SRAM(40GB)，消灭芯片间通信这个最大瓶颈，在小batch用户数量小的场景下token rate极高。但成本完全没有竞争力，一台CS-3系统价格230万美元，远超同等GPU集群，跟H100比是十几倍的成本换十几倍的速度。 d-Matrix ：高速度+小batch场景。in-memory compute减少data movement，在小batch decode下比GPU的利用率高，所以perf/watt在这个区间有一定竞争力。最近引入的3D stacked DRAM 是为了解决“更大的 reasoning model + 更高 token consumption”带来的容量/带宽继续扩展问题 SambaNova ：在企业私有化部署场景下，同时跑多个中小模型，GPU的利用率因为context switching损耗严重，SambaNova的RDU在这个场景下有更好的perf/dollar。本质上还是特定场景下的成本优势，通用速度优势并没有那么大 MatX：partitionable脉动阵列 + SRAM/HBM混合，和这次Nvidia的异构架构思路有相似的地方，最大的亮点是单芯片内实现Weights放在SRAM上，KV cache放在HBM上。但单芯片内省掉了前面提到的AFD的80层LPU-GPU芯片间通信，所以速度上仍然有一定优势，但Scalability可能不如GPU+LPU阵列了总之，在Rubin + LPX情境下，小batch、低延迟，速度极快这个以前的场景缺口补上了很多，各个startup的优势空间越来越缩小了 ------------- 前瞻里提到的speculative decoding用LPU做草稿模型，用GPU去验证，这样的加速幅度会非常大，这个猜想完全命中，这次在官方blog里有了浓墨重彩的一笔，专门用了一整个章节来介绍这个用法：“LPX generates draft tokens rapidly using its low-latency architecture. Rubin GPUs verify and finalize tokens efficiently” 另外一个前瞻里提到的CPX (Content Phase aXcelerator，一个专门为prefill的compute bound特性设计的计算模块)，似乎在这次GTC里完全消失了，一个字也没提，这是意味着CPX被彻底取消了吗？我觉得不一定目前的prefill和decode是disaggregated结构，也就是说一部分的GPU专门做prefill，另一部分专门做decode。CPX取代GPU做prefill从架构上来说是更合理的选择，可以加速prefill阶段，当然了会带来更高的成本，毕竟也是额外的一颗芯片 CPX和目前Nvidia的Rubin + LPX架构没有冲突的地方，仅仅只是简单的把做prefill的这部分GPU换成CPX而已，所以以后有速度优化需求的时候，也许CPX还会回来的 —------------------------------------------------------- 还是上篇的感慨，每一次计算范式的改变，半导体都会带来一波新的startup热潮，但当软件/应用形态逐渐收敛，最后还是变成了大厂通过收购把功能做大做全，参数做的更高，系统深度整合的更好更全面，成本更低，功耗和跑分更优秀，让startup慢慢失去独立生存的空间比如移动互联网时代早期，也是群雄并起，有做AP应用处理器，独立基带芯片的，ISP的，GPU的各种小公司。但最后的赢家，都是从到后来把GPU，ISP，modem全都做进SoC，并且完成系统级整合的异构计算平台。苹果收购PA semi的CPU，英飞凌的modem，掏空Imagination的GPU；高通收购ATI的mGPU，Atheros的Wifi，Nuvia的CPU，CSR的蓝牙/DSP，都是典型例子异构推理的复杂度越来越高，能做系统级整合的公司会更有优势，这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败)，收购Mellanox，收购groq，只是这个新历史轮回的开始

中文

252

84.8K

AI美猴王 retweetledi

Berryxia.AI@berryxia·4d

我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛，冲到220 tokens/s。比原版GGUF快超过1.4倍，精度零损失。他们测了半天，发现draft tokens设成2就是甜点，再往上接受率暴跌，实际速度反而掉下去。我看完那张benchmark曲线图，最大的感受是，本地大模型的性能天花板又被狠狠顶高了一截。以前总觉得30B+模型本地跑太慢，现在MTP投机解码直接把消费级显卡的潜力榨干了。如果你在玩llama.cpp、跑本地Agent或者日常coding，这波更新必须马上试。本地AI越来越不像“妥协版”了。

Daniel Han@danielhanchen

We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 220 tokens/s generation on a single GPU. Qwen3.6 27B and 35B-A3B have >1.4x speed-up over the original GGUFs without any change in accuracy. Guide + GGUFs + Benchmarks: #mtp-guide" target="_blank" rel="nofollow noopener">unsloth.ai/docs/models/qw… In terms of average speedup, we see a 1.4x for dense models at draft tokens = 2 and for the MoE around 1.15 to 1.2x. We do not recommend more than 2 draft tokens because the acceptance rate drops precipitously from 83% to 50% with 4 draft tokens, and the forward passes for MTP become less beneficial. Use `--spec-type mtp --spec-draft-n-max 2` Thanks to Aman for github.com/ggml-org/llama…!

中文

338

63K

AI美猴王 retweetledi

Berryxia.AI@berryxia·4d

Moonshot AI创始人杨植麟最近放出了一个40分钟视频。这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者，前Google Brain和Meta研究员，坐在镜头前平静拆解了Kimi K2的整个训练过程。他们只花了460万美元。上周一场8模型实时编程大战，Kimi K2直接拿下第一，GPT-5.5排第三，Claude Opus 4.7第五。我看完后最大的感受是，AI竞赛的规则已经在悄然改变。所有人还在拼谁敢烧更多钱、堆更多算力，他却用极致优化、线性注意力、子代理这些硬核架构，把资源差距直接抹平甚至反超。 40分钟全是干货，零废话，把关键打法讲得清清楚楚。如果你正在做AI代理，或者准备2026年入场大模型赛道，这段视频强烈建议存下来周末慢慢看。小团队靠聪明架构，正在把大厂的传统玩法一点点颠覆。你还觉得只有堆钱才能赢吗？

中文

153

717

106K

AI美猴王 retweetledi

刘江/LIU Jiang@turingbook·5d

国内一些大模型团队的认知，整体上可能和美国Top实验室还是有差距的。

plantegg@plantegg

看完了张小珺对罗福利和姚舜宇两个人的采访，特别有感触，很有意思。我感觉罗福利的逻辑完全不在线，看不出来是能够带领大模型往前发展的人才。但姚舜宇一看就是个非常聪明的人，而且也非常务实。虽然他工作经验才两年，但我觉得他对大模型的理解比罗福利要强很多。所以说，这是一个很奇怪、有意思的现象。过几年再回来看看吧

中文

23.3K

AI美猴王 retweetledi

Berryxia.AI@berryxia·5d

兄弟们，我后背没有发凉。但，我看到这个模型架构后高兴不已！大家还在疯狂堆参数、卷通用大模型的时候，Interfaze直接用一个全新混合架构。把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini和Grok-4.3的程度。他们把任务专用的DNN/CNN编码器和全能transformer融合在一起，实现了真正的“专精+灵活”：CNN负责极致准确和元数据（边界框、置信度）。 transformer负责理解和推理，还能通过标签只激活部分模型，速度和成本直接起飞。 9个硬核基准上全面领先，而且在OCR、视觉、音频这些高频场景里，速度和性价比完胜通用大模型。这才是最被低估的真相：未来很多真实生产力任务，根本不需要越来越大的通用模型，而是需要这种“专为确定性任务而生”的混合架构。 Interfaze把AI从“万能但贵且慢”拉回了“又准又快又便宜”的现实路径。 PS：我觉得需要和我之前的ocr测试的用例看看一起再测试一下结果怎么样，是不是如榜单所描述！完整博客值得立刻读一遍👉 interfaze.ai/blog/interfaze…

Interfaze (YC P26)@interfaze_ai

Interfaze is a new model architecture that outperforms in tasks like OCR, Object detection, Translation and more It beats models like Claude Sonnet 4.6, Gemini 3 flash and GPT 5.4 mini on 9 benchmarks

中文

125

24.8K

AI美猴王 retweetledi

思维怪怪@0xLogicrw·5d

MIT 何恺明团队发布了新语言模型 ELF（Embedded Language Flows）。他们绕开了目前的自回归架构，把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是：把整个生成过程塞进连续的向量空间，直到最后一步才把数据还原成离散 token。图像像素能平滑变色，天生适合扩散模型去噪。但文字不行，词与词之间是断开的，「猫」和「狗」之间没有任何中间地带。为了填平这个鸿沟，以前的文本扩散模型做得很拧巴：要么在去噪时每一步都强行去查词表，要么在模型外面再挂一个独立的解码器。ELF 彻底切断了这种纠缠：中间全不管，让模型安安心心在连续空间里算去噪，只在最后一刻用同一套网络把向量转回文字。这条路不仅走通了，而且极度省数据。在 OpenWebText 评测中，105M 参数的 ELF-B 仅用 32 步采样，困惑度（Gen. PPL）就压到了约 24.1，优于多款基线模型。更重要的是，它只消耗了约 45B 训练 token，而同级别对手通常需要 500B 以上，训练量直接砍掉九成。这个结果证明，语言天生的离散性并没有堵死连续扩散这条路。一旦这种思路成熟，未来的大模型有望彻底摆脱只能「从左到右、单向蹦字」的架构束缚。

Linlu Qiu@linluqiu

Language is discrete. Language models don’t have to be. 🧚Introducing ELF🧚‍♀️: Embedded Language Flows—a class of diffusion models in continuous embedding space based on continuous-time Flow Matching 🧵

中文

320

64.4K

AI美猴王 retweetledi

qinbafrank@qinbafrank·4d

九张图详细拆解英伟达最新Rubin平台，从Blackwell到Rubin意味着AI算力进入系统级时代。Rubin的出现，本质是AI基础设施的一次范式切换：当模型规模、推理负载与数据流量同时爆发，瓶颈从算力本身转向带宽、互连与系统协同，单芯片能力不再决定上限。Vera CPU负责调度，Rubin GPU提供算力，HBM4解决带宽，NVLink打通互连，最终在机柜级系统中完成整合——英伟达卖的已经不是芯片，而是一整套AI工厂。由此带动的，也不只是GPU性能竞争，而是HBM、先进封装、网络、液冷、电源与数据中心的全链条升级。来自半导体产业报告、一起学习下。

qinbafrank@qinbafrank

x.com/i/article/2043…

中文

315

58.2K

AI美猴王 retweetledi

戈多Godot@GodotSancho·11 May

x.com/i/article/2049…

ZXX

50.1K

AI美猴王 retweetledi

川沐｜Trumoo🐮@xiaomustock·5d

基于此想到一个提前获知存储股市场动态变化的渠道方法。通过韩国海关总署 (KCS)官网和韩国贸易统计推广院官网每周每月实时查询。 1. 韩国海关总署 (KCS) 海关总署会定期发布趋势分析报告。官方网址： [tradedata.go.kr] 披露内容：每月的 11日和 21日会发布《进出口现状》简报（包含半导体单列数据），每月 15日左右发布上月的详细最终统计数据。 2. TRASS (Trade Statistics Service) 这是由韩国贸易统计推广院（KTSPI）运营的最权威、细致的查询平台。官方网址： [trass.or.kr] 操作方式：在“Trade Statistics”或“Export/Import by Item”菜单下，通过 HS Code（海关编码）进行检索。关键编码参考： SSD（固态硬盘）： HSK 8471.70.4010。 HBM（高带宽内存）：通常归类在 HSK 8542.32（DRAM 存储器）下，更精确的动态需组合查询其 10 位编码。数据逻辑：获取该月度或旬度的“出口金额”与“出口重量/数量”，两者的比值即为出口单价。

川沐｜Trumoo🐮@xiaomustock

韩国海关数据印证了ssd需求已经在反超hbm，好消息是存储三巨头，三星海力士美光依然是ssd垄断者。

中文

130

763

184K

Keşfet

@LufzzLiz @cuichenghao @Bill16370646 @StateInterOffic @wangjupaian @elonmusk @BarackObama @taylorswift13