AI美猴王

2.7K posts

AI美猴王

AI美猴王

@jellchou

十年AI算法,不知名公司CTO,AIGC实践者,AI时代探索智能产品构建。

Tokyo-to, Japan Katılım Mart 2015
724 Takip Edilen527 Takipçiler
AI美猴王 retweetledi
Xudong Han
Xudong Han@Xudong07452910·
🌙 ARIS:让 AI 在你睡觉时继续搞科研的神器! 一个极致轻量的自动科研工具,可以让 Claude Code / Codex / Cursor / Trae / 国产模型自动进入科研工作流: 📚 读论文,找 weakness 💡 生成 idea,设计实验 🧪 跑实验,不断迭代结果 📝 全流程写论文,自动准备 rebuttal 📊 生成 slides / poster 它最有意思的地方是:不是搞一个笨重框架,而是用纯 Markdown skills 把科研流程拆开,无框架、无锁定,换模型也能用。 白天你负责判断方向,晚上 AI 负责疯狂探索。 一觉醒来,论文可能真的升级了。🚀 github.com/wanshuiyin/Aut… #AI科研 #ClaudeCode #AutoResearch #Codex
Xudong Han tweet media
中文
20
107
524
29.3K
AI美猴王 retweetledi
Geek Lite
Geek Lite@QingQ77·
一套生产级的开源水培自动化控制系统,填补业余 DIY 装置和昂贵工业自动化之间的差距,支持 ESP32 硬件、MQTT 遥测和实时 Web 仪表板。 github.com/40rbidd3n/Hydr… HydroponicOne 是水培种植的 IoT 全套方案。ESP32 负责读 pH、EC、水位、温湿度这些传感器数据,走加密 MQTT 送到 Fastify 后端,React 前端通过 WebSocket 实时刷新。存数据用 PostgreSQL 管配置、InfluxDB 管时序数据。固件升级走 RSA 签名 OTA,安全可靠。项目不光有代码,还给了 PCB 设计、3D 打印外壳和接线图,能直接对接 Home Assistant 和 Telegram 告警。
Geek Lite tweet media
中文
4
39
169
6.9K
AI美猴王 retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
兄弟们,今天必需卧槽一下了! 昨晚发完这条推文后,终于等到了… xAI算法开源后,终于有人把源码真正啃完了。 岚叔@LufzzLiz (某大厂架构师,多模态与模型私有化领域专家)直接上手,把xai-org/x-algorithm仓库的每一行结论都追溯到源码,用Opus-4.7花了两天时间,搞出了一个完整wiki。 所有页面都有明确源码出处,跟市面上很多“AI批量生成”的解读完全不一样,直接Wiki库整起来了… 就是不一样啊! 这才是真正有价值的算法拆解。 GitHub仓库:github.com/cclank/x-algor… 在线阅读地址:#index" target="_blank" rel="nofollow noopener">lansu-wiki-web.lank.workers.dev/wiki/cclank/x-…
Berryxia.AI tweet media
Berryxia.AI@berryxia

xAI 算法开源后,解读内容铺天盖地。 我敢说一句颠覆多数人认知的实话: 市面上 95% 的分析,是 AI 批量生产的同质化废话, 连源码文件名都没翻过一次。 「多互动」「多发帖」「账号要垂直」 这种谁都会说的话,说了等于没说。 真正藏在 xAI 算法深处的机制, 大多数人连名字都没听过, 却在教别人怎么运营 X。 你见过哪篇解读,是真的牛逼有价值,欢迎推荐! 如果没有我就来个收费的文章😁 绝对牛逼! 开玩笑,我也是每天在一点点的啃~~ 但是真的惊喜不断!

中文
10
14
78
11.1K
AI美猴王 retweetledi
欧阳拽白
欧阳拽白@OuYangZhuaiBai·
梁文峰的炒股人生线: 1985年・出生 - 生于广东湛江吴川市覃巴镇米历岭村,父母均为小学语文老师,家境普通。 1990s–2002 年 · 早年 - 小学:从小擅数学,爱拆解电子设备 。 - 初中/高中:被称“数学神童”。 - 2002 年高考:总分 806 分,吴川一中状元、湛江第14名、广东约前100名。 2002–2006 年 · 浙大本科 - 就读浙大电子信息工程:大学生电子设计竞赛全省第一名/全国一等奖。 2007–2010 年 · 浙大硕士 - 2007 年:浙大通信工程硕士(机器视觉方向)。 - 2008 年(23岁,研二):以8万元本金开始A股自动化交易,正式试水量化。 - 2010 年:硕士毕业;当年股市低迷,凭自动化策略盈利约100万,获“校园股神”称号。 2010–2013 年 · 职业散户 - 未就业、未创业,全职炒股。 曾在成都租房闭门交易三年,持续打磨量化策略。 2013–2015 年 · 机构化起步 - 2013 年:与浙大同学徐进成立杭州雅克比投资管理有限公司,从散户转向机构化,仍以策略研发为主。 2015–2023 年 · 幻方量化 - 2015 年:创立杭州幻方科技(幻方量化);对外称2008–2015年8万做到1亿(7年1250倍),引发热议。 - 2016 年10月:首个深度学习AI策略上线实盘,启用GPU集群替代CPU。 - 2017 年:全面AI化;管理规模破30亿,奠定头部量化地位。 - 2018 年:获私募金牛奖。 - 2019 年:规模破100亿;自研萤火一号AI集群(1100卡,投资近2亿)。 - 2021 年:规模破1000亿;投10亿建萤火二号(约1万张A100);年底产品普遍回撤超10%,开始主动缩规模。 - 2023 年底:规模降至约450亿;监管趋严、高频受限,算力闲置,寻求新方向。 2023–2025 年 · 跨界AI(DeepSeek) - 2023 年7月:创办杭州深度求索(DeepSeek),主攻通用大模型。 - 2024 年5月:发布DeepSeek‑V2(混合专家)。 - 2024 年12月26日:开源DeepSeek‑V3;训练280万GPU小时、成本约4000万,春节期间走红。 - 2025 年1月20日:发布DeepSeek‑R1,数学/代码/推理性能对标OpenAI o1,并开源权重与技术,全球引发震动;当月出席总理座谈会、登上新闻联播。
欧阳拽白 tweet media
中文
42
38
265
79K
AI美猴王 retweetledi
Jason Zhu
Jason Zhu@GoSailGlobal·
CAD 又可能被颠覆一次,这回动手的是 MIT 实验室 过去两年 AI 图生 3D 的 demo 一周一个 工厂没有一家在用 输出的都是 mesh 一坨封死的三角面片 工程师想改一个螺孔尺寸 整张图得重画 设计意图全丢了 只剩外壳 GenCAD 换了思路 输入还是一张图 输出换成了 CAD 命令序列 点 线 拉伸 旋转 倒角 跟你在 SolidWorks 里手动操作的步骤完全一样 丢进 Fusion 能直接打开 接着改 · mesh 是给眼睛看的,CAD 命令是给机床看的 · 四步管线 第一、 transformer 把 CAD 命令序列编码成 latent 第二、 对比学习把图像和 CAD 的 latent 拉到同一个空间(CCIP 等于 CAD 版的 CLIP) 第三 、在 CAD latent 上跑 diffusion 用图像 latent 做 condition 第四、 解码回参数化命令 顺手解决了一个老问题 大型 CAD 库里搜模型 以前只能靠文件名和 tag 现在能用图搜了 · 作者 Ferdous Alam 和 Faez Ahmed 发在 TMLR 2025 GitHub 1.4k star 代码 Docker 预训练权重全开 github.com/ferdous-alam/G…
Jason Zhu tweet media
How To AI@HowToAI_

MIT open-sourced an AI model that converts photos into fully editable CAD programs and it quietly kills the $150/hour CAD modeling industry. Just upload a sketch or photo and it generates the full parametric 3D model. exportable as STL. ready for manufacturing. → no SolidWorks license → no weeks of modeling → no CAD engineer needed 100% Open Source

中文
2
10
40
3.6K
AI美猴王 retweetledi
一起发财
一起发财@yiqifacai·
最近火热的台积电的三层蛋糕AI平台架构,到底说了什么? 【是什么】: 我们可以把它理解为先把很多小芯片堆高(SoIC),再把不同类型的芯片装成一块大模块(CoWoS),最后用光纤把这些模块高速连起来(COUPE),一起为 AI 提供又快又省电的算力。 【优势】:用三层不同方式把芯片“堆得更高、连得更紧、传得更快”,在功耗差不多的前提下把 AI 算力上限大幅抬高 【利好哪些板块】掌握先进封装(SoIC/CoWoS)、硅光子与 CPO/COUPE 光互连的芯片设计公司、代工厂和光器件/封装供应链(包括海外和大陆)会成为最大受益者。 本质:台积电想利用自己的堆叠和整合的技术优势,定义未来5-10年的架构体系。 时间点:2026-2028 测试,验证,小批量。 长期影响:会淘汰一批没有先进封装能力,先进制造能力且非上游材料提供者的公司。
一起发财 tweet media
中文
24
24
82
12.9K
AI美猴王
AI美猴王@jellchou·
@cuichenghao 同样的事碰到过,最后到物业调监控,发现外卖员拿走了
中文
0
0
1
8.6K
作家崔成浩
作家崔成浩@cuichenghao·
一网友出差过生日,午夜自己给自己点了一份生日蛋糕送到酒店。开门拿并没有,调取监控发现,送餐员放下拍照后直接拎走。
中文
404
248
3.2K
2.1M
AI美猴王 retweetledi
齐博千
齐博千@Web3Dc888·
目前最喜欢的基金经理就是易方达的!仓位真的牛逼,进可攻退可守,年华也跑赢 纳斯达克不少! 如果纳斯达克跌了,额度开放的更多 就选择下面里面的基金就好! 如果 不是牛市很多频繁调仓的人都跑不赢ETF的!
齐博千 tweet media
中文
67
95
630
92.9K
AI美猴王 retweetledi
fin
fin@fi56622380·
每年的Nvidia GTC大会,都会带来一些技术范式转新移概念,作为全业界的新技术标杆 各家在GTC之后都会改roadmap去抄作业 总有人问,AI芯片下一波结构性趋势转变的机会在哪里? 这几个月范式转移带来的结构性转变机会之一,就是AI异构推理,而以Cerebras为首的SRAM路线初创,就这样走到了新趋势前沿 ------------------------ SRAM路线的公司生态位在哪里,得先看genAI推理的不同阶段workload特点 主要分成三个部分: prefill:计算强度特别高,对memory带宽速度要求不高,对memory size要求中等偏高 decode阶段的attention部分:计算强度中等,对memory带宽速度要求特别高(对kv cache的反复读写),对memory size要求特别高,因为batch size的变大造成了kv cache的线性增长 decode阶段的FFN部分:计算强度中等,对memory带宽速度要求特别高(模型权重的反复读取),对memory size要求中等偏高(模型权重) SRAM路线的芯片特点也很清楚: 除了memory带宽做到了极致,其他方面都是严重缺陷,本质上是用计算强度和memory size做不大这两个劣势,换取了极致的memory带宽速度 --------------------- 再来分别看AI推理的三个阶段,SRAM的适用度 prefill:SRAM计算强度无法做的很高,因为整个芯片上的SRAM面积占用太大,计算模块面积受限,所以prefill是弱项 decode阶段的attention部分:SRAM memory带宽要求高能达到,但是SRAM memory size很小达不到batch的要求,所以SRAM做attention只能满足一半需求 decode阶段的FFN部分:SRAM memory带宽要求高能达到,memory size要求中等,SRAM芯片通过互联通信的优化,能勉强解决memory size的问题,虽然代价很高,但ROI在某些场景下还是能算的过来的 ---------- 所以SRAM路线的加速器 在AI异构推理的适用范围也很清楚: prefill部分别想了,性能垃圾,经济性垃圾 decode阶段的FFN部分,属于努努力加大成本还能够得着 decode阶段attention部分,kv cache对memory size要求太高,批量处理需求实现过于高昂,让Cerebras昂贵的230万美元一片,45片连成一起的奢侈的一亿美元的系统做成专属的超级VIP服务,完全是经济性灾难 想象一下,一两个用户agent flow做coding任务花了1~2M context length,就得耗费230万美元一整个cerebras的44GB SRAM来做KV cache,不然速度就上不去,这是什么样的奢侈服务 ------------- 所以结论简直不能再明显了:Cerebras如果单独做全栈AI推理(prefill + decode ATTN + decode FFN),经济上是走不通的,没有未来的 因为Cerebras成本是非常惊人的,即便是他们毛利率压的如此之低,每台 CS-3 系统的隐含租金还是要 $41.96/小时,是B200的差不多十倍租金,更不要说CS-3还得很多片连起来做LLM推理,租金要再乘以很多倍。 这也是为什么SRAM路线经济效益如此差的原因,Nvidia在GTC已经清晰的指出了这一点(如图)。 鼓吹SRAM路线以后取代HBM?那是痴人说梦,SRAM的scaling已经撞墙的情况下,每代芯片上的SRAM密度已经很难提升,在memory size这个维度上,HBM的指数型增长只会更加和SRAM拉开差距。即便是memory 带宽这个维度上,HBM也在指数型增长,缩小和SRAM的差距 所以Nvidia的解法非常简洁而优雅:decode阶段的FFN部分交给SRAM路线,其他部分交给传统HBM GPU,把整个pareto frontier往右上角推进了很多 Rubin + LPX最高速度突破1000 token/s的同时,还能让整体throuhput仍然能保持一定的商业价值(这点很重要)。要知道如果在Blackwell要跑到400~500 token/s高速,只能同时处理很少的几个请求,这对GPU资源是巨大的浪费。 而现在就算是跑到1000 token/s,也能保持一定的batch size(吞吐量)了,终于也能产生商业价值了,图里说在400 token/s的速度下,Rubin + LPX把吞吐提升了35倍,就是典型的token经济学,这个token高速度下,从Blackwell算提升了35倍的商业价值 --------------------- 这个解法在GTC公布标准答案之后,甚至更早在收购Groq的LPU之后,大家就已经开始做异构推理这个方向抄作业的努力了 Google的TPU找了Marvell做SRAM部分 Amazon AWS的trainium找了Cerebras做SRAM部分 字节的AI asic找了高通做SRAM部分 未来我们一定会看到越来越多类似的消息 而这就是Cerebras在经济上可持续的最好道路:不要硬扛全栈AI推理,只做自己擅长的部分,在AI推理中和主流AI ASIC合作,争取能把自己SRAM芯片融入其他家的AI推理的decode FFN环节 这也是为什么,Cerebras长期发展的关键在于和aws trainium的disaggregate inference能整合到什么程度 如果只是目前爆出的Trainium做prefill和Cerebras做decode分离,技术上实现难度要小的多,但是这样经济上仍然不划算 ,只能是战略布局,能有一定的市场,但无法真正产生规模化竞争力 而走Nvidia路线,深度整合两家优势,需要不少时间的技术整合,难度不小,但回报是值得的。解法一:trainium做prefill和decode attn,Cerebras做decode FFN。或者解法二:Cerebras做草稿模型,trainium做验证,。无论是哪种解法,市场竞争力都大太多了 -------------------- 和主流AI ASIC这样的合作方式,是减小了SRAM路线的市场规模TAM吗? 不,这才是SRAM路线的公司唯一的长期可持续化增大市场规模的道路,因为AI异构推理趋势一定是未来,提前在这个增长的未来蓝图中找到属于自己的拼图位置,才能跟着市场一起增长 SRAM路线公司一旦融入任何主流AI ASIC的异构推理环节,身价都会暴涨,因为出货量的TAM完全不是一个数量级了 不然的话,AI异构推理在token速度(不是throughput)这个维度上,一定会持续的蚕食SRAM路线的速度优势,SRAM路线AI全栈推理沦为昂贵的玩具是注定的结局
fin tweet media
fin@fi56622380

复盘GTC 2026:Nvidia补上了短板,大幅削弱了各个AI 加速器 startup最大的优势--token速度 回顾这篇GTC前瞻,方向预测和技术路线写的没啥大问题,最后Nvidia给出的解法比我想象的更为精巧:不仅是prefill放在GPU上,decode阶段Attention阶段也放在GPU上(这点没想到),只把decode的MLP阶段放在LPU上做 这和MatX的解决方法有异曲同工之妙,Weights放在SRAM上,KV cache放在HBM上 这样的好处在于,Attention阶段需要巨量的KV cache(动辄几十上百GB),本就是LPU SRAM无法承受的,把这部分放在HBM上是更合理的选择 正应对了未来agentic flow里多轮对话上下文长,long context KV cache爆炸的趋势,即便是高batch并发数产生巨量KV cache也能让HBM容纳。随着上下文长度变长,所有的增量成本都在GPU HBM上,LPX是完全静态的不受影响,只和模型本身大小相关 让LPU宝贵的128GB SRAM只承担FFN/MLP阶段的固定weights,而FFN阶段占GPU整个decode阶段的50%以上,如果是短context甚至能占比超过60%,FFN这部分在LPU上得到数倍大幅加速,是很划算的 这样设计的部分drawback可能在于,一般transformer的decode阶段有很多层,比如以80层为例,那就是attention层和FFN要重复80次,也就是说,tensor要在GPU和LPU之间互相传递80次,虽然中间是low latency Nvidia Spectrum-X Ethenet,但生成一个token需要80次GPU-LPU往返延迟累加,这也是不小的损耗 这样的新架构,按attention和FFN各占40%/60%来算,FFN阶段加速几倍,极限最高速度来说,整体加速能达到一倍以上(和Rubin NVL 72比) 最高速度突破1000 token/s的同时,还能让整体throuhput仍然能保持一定的商业价值。要知道如果在Blackwell要跑到400~500 token/s高速,只能同时处理很少的几个请求,这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s,也能保持一定的batch size(吞吐量)了,终于也能产生商业价值了 图里说在400 token/s的速度下,Rubin + LPX把吞吐提升了35倍,就是典型的token经济学,这个token高速度下,从Blackwell算提升了35倍的商业价值 ------- Nvidia补上了这块短板之后,对各个startup(比如Cerebras, d-Matrix, MatX, SambaNova)有什么影响呢? startup最大的卖点就是特定场景下的速度优势,或者成本优势 在大batch(多请求)场景下,GPU的算术密度(arithmetic intensity)越过ridge point之后利用率接近很高,成本/速度都对startup有显著的优势。 所以这些startup能存活,最大的场景是:客户的workload集中在小batch、低延迟,速度极快,不在乎极高成本。GPU在这里效率极差,也达不到对应的token速度 Cerebras:极致的速度。wafer-scale尺寸巨大的SRAM(40GB),消灭芯片间通信这个最大瓶颈,在小batch用户数量小的场景下token rate极高。但成本完全没有竞争力,一台CS-3系统价格230万美元,远超同等GPU集群,跟H100比是十几倍的成本换十几倍的速度。 d-Matrix :高速度+小batch场景。in-memory compute减少data movement,在小batch decode下比GPU的利用率高,所以perf/watt在这个区间有一定竞争力。最近引入的3D stacked DRAM 是为了解决“更大的 reasoning model + 更高 token consumption”带来的容量/带宽继续扩展问题 SambaNova : 在企业私有化部署场景下,同时跑多个中小模型,GPU的利用率因为context switching损耗严重,SambaNova的RDU在这个场景下有更好的perf/dollar。本质上还是特定场景下的成本优势,通用速度优势并没有那么大 MatX:partitionable脉动阵列 + SRAM/HBM混合,和这次Nvidia的异构架构思路有相似的地方,最大的亮点是单芯片内实现Weights放在SRAM上,KV cache放在HBM上。但单芯片内省掉了前面提到的AFD的80层LPU-GPU芯片间通信,所以速度上仍然有一定优势,但Scalability可能不如GPU+LPU阵列了 总之,在Rubin + LPX情境下,小batch、低延迟,速度极快这个以前的场景缺口补上了很多,各个startup的优势空间越来越缩小了 ------------- 前瞻里提到的speculative decoding用LPU做草稿模型,用GPU去验证,这样的加速幅度会非常大,这个猜想完全命中,这次在官方blog里有了浓墨重彩的一笔,专门用了一整个章节来介绍这个用法:“LPX generates draft tokens rapidly using its low-latency architecture. Rubin GPUs verify and finalize tokens efficiently” 另外一个前瞻里提到的CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块),似乎在这次GTC里完全消失了,一个字也没提,这是意味着CPX被彻底取消了吗? 我觉得不一定 目前的prefill和decode是disaggregated结构,也就是说一部分的GPU专门做prefill,另一部分专门做decode。CPX取代GPU做prefill从架构上来说是更合理的选择,可以加速prefill阶段,当然了会带来更高的成本,毕竟也是额外的一颗芯片 CPX和目前Nvidia的Rubin + LPX架构没有冲突的地方,仅仅只是简单的把做prefill的这部分GPU换成CPX而已,所以以后有速度优化需求的时候,也许CPX还会回来的 —------------------------------------------------------- 还是上篇的感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始

中文
35
58
252
84.8K
AI美猴王 retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛,冲到220 tokens/s。 比原版GGUF快超过1.4倍,精度零损失。 他们测了半天,发现draft tokens设成2就是甜点,再往上接受率暴跌,实际速度反而掉下去。 我看完那张benchmark曲线图,最大的感受是,本地大模型的性能天花板又被狠狠顶高了一截。 以前总觉得30B+模型本地跑太慢,现在MTP投机解码直接把消费级显卡的潜力榨干了。 如果你在玩llama.cpp、跑本地Agent或者日常coding,这波更新必须马上试。 本地AI越来越不像“妥协版”了。
Berryxia.AI tweet media
Daniel Han@danielhanchen

We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 220 tokens/s generation on a single GPU. Qwen3.6 27B and 35B-A3B have >1.4x speed-up over the original GGUFs without any change in accuracy. Guide + GGUFs + Benchmarks: #mtp-guide" target="_blank" rel="nofollow noopener">unsloth.ai/docs/models/qw… In terms of average speedup, we see a 1.4x for dense models at draft tokens = 2 and for the MoE around 1.15 to 1.2x. We do not recommend more than 2 draft tokens because the acceptance rate drops precipitously from 83% to 50% with 4 draft tokens, and the forward passes for MTP become less beneficial. Use `--spec-type mtp --spec-draft-n-max 2` Thanks to Aman for github.com/ggml-org/llama…!

中文
27
53
338
63K
AI美猴王 retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2的整个训练过程。 他们只花了460万美元。 上周一场8模型实时编程大战,Kimi K2直接拿下第一,GPT-5.5排第三,Claude Opus 4.7第五。 我看完后最大的感受是,AI竞赛的规则已经在悄然改变。 所有人还在拼谁敢烧更多钱、堆更多算力,他却用极致优化、线性注意力、子代理这些硬核架构,把资源差距直接抹平甚至反超。 40分钟全是干货,零废话,把关键打法讲得清清楚楚。 如果你正在做AI代理,或者准备2026年入场大模型赛道,这段视频强烈建议存下来周末慢慢看。 小团队靠聪明架构,正在把大厂的传统玩法一点点颠覆。 你还觉得只有堆钱才能赢吗?
中文
39
153
717
106K
AI美猴王 retweetledi
AI美猴王 retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
兄弟们,我后背没有发凉。 但,我看到这个模型架构后高兴不已! 大家还在疯狂堆参数、卷通用大模型的时候,Interfaze直接用一个全新混合架构。 把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini和Grok-4.3的程度。 他们把任务专用的DNN/CNN编码器和全能transformer融合在一起,实现了真正的“专精+灵活”:CNN负责极致准确和元数据(边界框、置信度)。 transformer负责理解和推理,还能通过标签只激活部分模型,速度和成本直接起飞。 9个硬核基准上全面领先,而且在OCR、视觉、音频这些高频场景里,速度和性价比完胜通用大模型。 这才是最被低估的真相:未来很多真实生产力任务,根本不需要越来越大的通用模型,而是需要这种“专为确定性任务而生”的混合架构。 Interfaze把AI从“万能但贵且慢”拉回了“又准又快又便宜”的现实路径。 PS: 我觉得需要和我之前的ocr测试的用例看看一起再测试一下结果怎么样,是不是如榜单所描述! 完整博客值得立刻读一遍👉 interfaze.ai/blog/interfaze…
Berryxia.AI tweet media
Interfaze (YC P26)@interfaze_ai

Interfaze is a new model architecture that outperforms in tasks like OCR, Object detection, Translation and more It beats models like Claude Sonnet 4.6, Gemini 3 flash and GPT 5.4 mini on 9 benchmarks

中文
7
25
125
24.8K
AI美猴王 retweetledi
思维怪怪
思维怪怪@0xLogicrw·
MIT 何恺明团队发布了新语言模型 ELF(Embedded Language Flows)。他们绕开了目前的自回归架构,把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是:把整个生成过程塞进连续的向量空间,直到最后一步才把数据还原成离散 token。 图像像素能平滑变色,天生适合扩散模型去噪。但文字不行,词与词之间是断开的,「猫」和「狗」之间没有任何中间地带。为了填平这个鸿沟,以前的文本扩散模型做得很拧巴:要么在去噪时每一步都强行去查词表,要么在模型外面再挂一个独立的解码器。ELF 彻底切断了这种纠缠:中间全不管,让模型安安心心在连续空间里算去噪,只在最后一刻用同一套网络把向量转回文字。 这条路不仅走通了,而且极度省数据。在 OpenWebText 评测中,105M 参数的 ELF-B 仅用 32 步采样,困惑度(Gen. PPL)就压到了约 24.1,优于多款基线模型。更重要的是,它只消耗了约 45B 训练 token,而同级别对手通常需要 500B 以上,训练量直接砍掉九成。这个结果证明,语言天生的离散性并没有堵死连续扩散这条路。 一旦这种思路成熟,未来的大模型有望彻底摆脱只能「从左到右、单向蹦字」的架构束缚。
Linlu Qiu@linluqiu

Language is discrete. Language models don’t have to be. 🧚Introducing ELF🧚‍♀️: Embedded Language Flows—a class of diffusion models in continuous embedding space based on continuous-time Flow Matching 🧵

中文
9
53
320
64.4K
AI美猴王 retweetledi
qinbafrank
qinbafrank@qinbafrank·
九张图详细拆解英伟达最新Rubin平台,从Blackwell到Rubin意味着AI算力进入系统级时代。Rubin的出现,本质是AI基础设施的一次范式切换:当模型规模、推理负载与数据流量同时爆发,瓶颈从算力本身转向带宽、互连与系统协同,单芯片能力不再决定上限。Vera CPU负责调度,Rubin GPU提供算力,HBM4解决带宽,NVLink打通互连,最终在机柜级系统中完成整合——英伟达卖的已经不是芯片,而是一整套AI工厂。由此带动的,也不只是GPU性能竞争,而是HBM、先进封装、网络、液冷、电源与数据中心的全链条升级。来自半导体产业报告、一起学习下。
qinbafrank tweet mediaqinbafrank tweet mediaqinbafrank tweet mediaqinbafrank tweet media
qinbafrank@qinbafrank

x.com/i/article/2043…

中文
22
91
315
58.2K
AI美猴王 retweetledi
川沐|Trumoo🐮
川沐|Trumoo🐮@xiaomustock·
基于此想到一个提前获知存储股市场动态变化的渠道方法。 通过韩国海关总署 (KCS)官网和韩国贸易统计推广院官网每周每月实时查询。 1. 韩国海关总署 (KCS) 海关总署会定期发布趋势分析报告。 官方网址: [tradedata.go.kr] 披露内容: 每月的 11日 和 21日 会发布《进出口现状》简报(包含半导体单列数据),每月 15日左右 发布上月的详细最终统计数据。 2. TRASS (Trade Statistics Service) 这是由韩国贸易统计推广院(KTSPI)运营的最权威、细致的查询平台。 官方网址: [trass.or.kr] 操作方式: 在“Trade Statistics”或“Export/Import by Item”菜单下,通过 HS Code(海关编码) 进行检索。 关键编码参考:  SSD(固态硬盘): HSK 8471.70.4010。  HBM(高带宽内存): 通常归类在 HSK 8542.32(DRAM 存储器)下,更精确的动态需组合查询其 10 位编码。  数据逻辑: 获取该月度或旬度的“出口金额”与“出口重量/数量”,两者的比值即为 出口单价。
川沐|Trumoo🐮@xiaomustock

韩国海关数据印证了ssd需求已经在反超hbm, 好消息是存储三巨头,三星海力士美光依然是ssd垄断者。

中文
15
130
763
184K