vickieGPT

16.7K posts

vickieGPT

@yyw2000

🏳️‍⚧️ System Hacker.

Santa Cruz, CA เข้าร่วม Temmuz 2012

7K กำลังติดตาม12.9K ผู้ติดตาม

ทวีตที่ปักหมุด

vickieGPT@yyw2000·28 Oca

zett-ai.myshopify.com/products/cxl2-…

ZXX

19.8K

vickieGPT รีทวีตแล้ว

駿HaYaO@QQ_Timmy·11h

Google 正與 Marvell Technology 洽談，共同開發兩款新型 AI 推論晶片。其中一款為記憶體處理單元（MPU），將搭配 Google 現有 TPU 使用；另一款則是專為運行 AI 模型設計的全新 TPU。 Google 也希望藉此分散晶片設計合作夥伴，降低對 Broadcom 的依賴。

NIK@ns123abc

BREAKING: Google is in talks with Marvell to build 2 new AI chips for inference >a memory processing unit that works alongside TPUs >a new TPU built specifically for running AI models Google plans to produce nearly 2 million memory processing units this is Google diversifying away from Broadcom, who charges fees on every TPU produced ITS HAPPENING

中文

6.9K

vickieGPT@yyw2000·2h

ZXX

242

vickieGPT รีทวีตแล้ว

rick awsb ($people, $people)@rickawsb·1d

AI芯片的scale up，底层=物理的限制是reticle：光刻机一次只能曝光一个固定大小的区域，上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。行业突破这个限制的难度非常大，接近物理极限，因为光刻的面积和精度往往不能两全（镜头等设备限制），所以只能绕开它。早期是大GPU，但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径：一种是把系统做大，用一块更大的“硅底板”interposer把多个芯片拼在一起；另一种是把芯片拆小，再通过高速连接重新组合。 interposer本质上不做计算，只负责连接。GPU、HBM这些芯片放在上面，通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶，很大程度上不是因为算得更快，而是数据在不同芯片之间移动得更快。但interposer本身也会超过reticle的尺寸，这时候就需要用到stitching。做法就像拼瓷砖：一块一块曝光，然后精确对齐，拼成一个整体。难点在于精度控制，边界一旦对不齐，连线就会出问题。这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片，对时序的要求极高，任何纳米级误差都可能影响性能，所以不能用stitching。interposer因为只是布线层，没有复杂逻辑，可以容忍这种拼接带来的误差。围绕连接这件事，行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台，把所有芯片放在同一块interposer上，连接集中在这层完成，带宽能力很强，但成本也高。另一种是不做大底板，只在需要高速连接的地方嵌入一小块桥接结构，按需提供带宽，结构更灵活，制造压力也更小。在AI训练场景下，模型规模大，HBM带宽成为关键，整个平台需要维持极高的数据吞吐，这类设计更依赖大面积interposer。但推理场景的约束不一样，更关注成本、延迟和并发，带宽需求往往集中在局部，不需要整个平台都维持极致带宽。这时候，把芯片拆成多个模块，再用局部高速连接拼起来，会更合适。这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer，而是在关键位置提供高带宽连接，可以把计算、缓存、IO等模块分开设计，再按需组合。这样的结构更容易控制成本，也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说，这种灵活性很重要。当然，推理并不完全不需要高带宽。在一些大模型推理场景里，HBM依然重要，对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中，成本和规模才是核心约束，这使得模块化和局部互连的价值变得更高。站在26年一季度末看未来，AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大，而是把计算拆开，再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了，系统的规模则由连接能力决定。免责声明：本文非投资建议dyor

rick awsb ($people, $people) tweet media

中文

195

19.7K

vickieGPT รีทวีตแล้ว

Jim Keller@jimkxa·10h

Intel won by RISCifying their CISC - still amazed how well x86-64 worked out LPUs is a subset of AI, an accelerator, it's not the RISC @tenstorrent , Trainium, Google TPU are closer. Clean Tensor processor is step one. Then generality, memory and Networking. And of course LInux and Open source software were key for Intel. AI software is a curious swamp tbh

Pushkar Ranade@magicsilicon

NVIDIA GPUs are the modern-day equivalent of the CISC ISA. TPUs, LPUs and other accelerators are the modern-day equivalent of the more elegant RISC ISA. Intel won the RISC vs CISC war of the 1990s. Who will win the AI architecture war of today? 🤔 The most optimal AI computer is yet to be built!

English

431

45K

vickieGPT รีทวีตแล้ว

Jesse Zhang@Nag1ovo·1d

1/ 用了三年的 M2 Air 16G，在 Agents + Chrome 多开下已经撑不住了。回国顺手换了台 M5 Pro MBP 48G，从零开始配。原则：less is more。只留离不开的，其它一律 say goodbye。 2026 我的开发环境 👇

中文

122

43.1K

vickieGPT รีทวีตแล้ว

勃勃OC@bboczeng·1d

Claude是真的要即将实现AGI了现在All In还来得及国内那几百个大语言模型其实全都是蒸馏的产物真的没什么必要吹的碰到瓶颈，直接完蛋谢谢大家

汉松@Yonah_x

Claude Design 真的太 agentic 了，它的导出 HTML 功能居然就是发一个指令给旁边的 Agent，让它开发一个 HTML 页面。一个功能就是一个 prompt，这应该就是未来的 Agent 软件雏形了。所有功能都不需要代码，直接让 Agent 现场开发就行。我突然有一种 prompt 即代码的感觉，Agent 成了 prompt 的解释器，以前是通过 Python 解释器来执行 Python，现在直接通过 Agent 去执行 prompt 就可以了，代码成了更底层的抽象。

中文

26.4K

vickieGPT@yyw2000·1d

mac bug还是太多了

中文

509

vickieGPT รีทวีตแล้ว

勃勃OC@bboczeng·1d

我有一个暴论：AI时代，Windows笔记本已经基本没救了一个原因是Windows的AI API适配能力不如Mac，毕竟Mac是UNIX标准系统，命令行的实用性更高，利好桌面型智能Agent 另一个原因是RAM。M系列芯片早就在搞统一内存了，导致模型可用内存特别是带宽足够大；而受限于台湾主板产业链的利润分配，Wintel联盟还在用DDR内存，最大也就32，64GB，而且不是统一内存，显寸需要另算，访问内存需要走总线，带宽更差，Prefill和Inference都吃亏完了，想不到在AI上毫无投入的苹果，竟然成为AI发展的最大受益者把所有事情都做到极限，这就是苹果永远能赢的哲学吧不说了，加仓AAPL！ 😅😅😅

中文

157

606

201K

vickieGPT@yyw2000·1d

Introducing hardware JIT and Coherent bus Replay Fabric

English

vickieGPT รีทวีตแล้ว

Underfox@Underfox3·2d

In this paper is presented a hardware accelerated implementation of a topology optimization neural network on the AMD Versal AI Engine-ML architecture. arxiv.org/pdf/2604.14700

English

2.9K

vickieGPT รีทวีตแล้ว

Vivek Galatage@vivekgalatage·3d

Understanding glibc malloc by sploitfun sploitfun.wordpress.com/2015/02/10/und… * How is heap memory obtained from the kernel? * How efficiently is memory managed? * Is it managed by the kernel, by the library, or by the application itself? * Can heap memory be exploited? Get those answers.

Vivek Galatage@vivekgalatage

glibc malloc internals sourceware.org/glibc/wiki/Mal… #MemoryManagement

English

498

46.7K

vickieGPT รีทวีตแล้ว

Jim Keller@jimkxa·1d

TT-Lang from Tenstorrent from Groq? It’s a Python-based DSL that lets you write high-performance custom kernels and fused ops directly on Tensix cores, Blackhole, etc.. Think “Triton but made for Tenstorrent hardware.” V 1.0 next week

English

239

187.7K

vickieGPT รีทวีตแล้ว

Ding@dingyi·1d

笑死，虽然 Anthropic 那么讨厌中国，但涉及到硬件的项目还是离不开深圳。 github.com/anthropics/cla…

中文

401

138.5K

vickieGPT รีทวีตแล้ว

雨哥向前冲@xiangxiang103·2d

疑似 DeepSeek V4 技术报告的 benchmark泄露！图中的“DeepSeek-V4 技术报告”基准测试（Benchmark）数据，为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体（Agent）四大维度的成绩单来看，DeepSeek-V4 展现出了极强的统治力，而大模型的第一梯队也正在经历重新洗牌。 🏆 竞争格局：当前大模型梯队划分从图表数据中，我们可以清晰地看到五款参评模型的实力分层： 👑 领跑者：DeepSeek-V4在所有 12 项严苛测试中均斩获最高分（State-of-the-Art），实现了跨维度的全面压制。 🥈 最强追赶者：Gemini 3.1 Pro Preview在多项核心指标上紧咬榜首，并在绝大多数测试成绩中超越了 GPT-5.3，是目前这组对比中最具竞争力的对手。 🥉 第三梯队：GPT-5.3 与 Claude Opus 4.6两者互有胜负，依然保持着极高的水准，但在最顶尖的竞争中已稍显疲态。 📏 基准线参照：GPT-4.1作为较早期模型的代表，其数据在这组对比中全面垫底，但也直观地印证了新一代模型技术跨越的幅度之大。 🔍 四大核心能力深度拆解 🧠 1. 综合常识与学科能力 (General) 核心数据：在极具挑战性的 MMLU-Pro 测试中，DeepSeek-V4 (91.2) 和 Gemini 3.1 Pro (90.0) 是唯二突破 90 分大关的模型。行业洞察：跨学科的专家级知识问答对头部模型已不再是难题。GPT-5.3 (88.4) 和 Claude (86.7) 在这方面稍显落后，知识密度的竞争正在向 90+ 的极限逼近。 🧮 2. 数学与复杂推理 (Reasoning & Math) 核心数据：顶尖数学竞赛基准 AIME 2025 呈现极度“内卷”的态势（DeepSeek-V4 96.4，Gemini 95.0，GPT-5.3 94.6）。行业洞察：数学是 AI 进步最神速的领域。90+ 的得分意味着这些模型在解决人类高难度奥数题时已经具备了压倒性的优势，各家在这个领域的差距往往只在几道题之间。 💻 3. 编程与工程能力 (Code) 核心数据：在 Codeforces（算法竞赛平台）上，DeepSeek-V4 飙升至 2767 分，拉开显著差距；但在评估修复真实软件工程 Bug 的 SWE-bench Verified 中，所有模型均未突破 60%（最高为 DeepSeek-V4 的 59.6%）。行业洞察：“写算法题容易，改人类代码难”。模型在纯逻辑生成上已经达到竞赛级选手水平，但在理解和修改复杂的现实商业代码库时，依然存在明显的短板。 🤖 4. 智能体自主行动 (Agent) 核心数据：在模拟网页浏览和执行任务的 WebArena 测试中，全场最高分（DeepSeek-V4）仅为 58.7，GPT-4.1 甚至低至 44.8。行业洞察：这是全表绝对得分最低的板块。它反映了当前的行业痛点：大模型“做题”和“写文章”能力极强，但如果让它像人类一样自主操作浏览器、跨应用处理多步骤现实任务，成功率依然堪忧。 💡 核心总结这份基准测试不仅是 DeepSeek-V4 强悍实力的“肌肉秀”，也侧面印证了 Gemini 3.1 Pro Preview 在当前技术路线上的极强竞争力。更重要的是，它为行业指明了下一步的攻坚方向——当模型的知识储备和做题能力逼近人类极限时，突破“智能体自主执行 (Agentic tasks)”的现实应用瓶颈，将是决定下一代 AI 霸权的关键。仅针对图中数据解读，真实情况还有待验证！

中文

237

117.2K

vickieGPT รีทวีตแล้ว

Phoronix@phoronix·3d

Linux 7.1 sched_ext Brings cgroup Sub-Scheduler Groundwork, Idle SMT Sibling Improvement phoronix.com/news/Linux-7.1…

English

106

5.9K

vickieGPT รีทวีตแล้ว

Phoronix@phoronix·3d

Intel LASS In Good Shape For Linux 7.1 The @Intel Linear Address Space Separation support now considered complete. phoronix.com/news/Intel-LAS…

English

2.4K

vickieGPT รีทวีตแล้ว

Sandro@pupposandro·3d

x.com/i/article/2044…

ZXX

164

50.2K

vickieGPT รีทวีตแล้ว

墓碑科技@mubeitech·4d

把顶级AI芯片卖给中共国，就像波音向朝鲜出售核弹。然后再骄傲地对外宣称，导弹的外壳是纯正的美国制造。这个极具杀伤力的类比，直接砸向了黄仁勋。面对对华芯片出口管制的逼问，他罕见地急了。他连珠炮似地反问主持人。 “我现在是在美国吗？” “你认为英伟达是一家美国公司吗？” 他试图用绝对优势来打消疑虑。美国的算力规模已经是世界其他地区的整整一百倍。英伟达永远把最尖端的技术优先供给美国实验室。就算研究机构没钱买，英伟达也会直接掏钱投资。在他看来，芯片产业是美国生态的基石，主动切断全球市场等于自断双臂。主持人毫不退让，直接把底线摆到了桌面上。一旦高端算力落入中共国手中，就能跑出针对全美软件的零日漏洞攻击模型。这跟向敌国输送能造核武器的浓缩铀毫无区别。黄仁勋当场怒斥这种类比毫无逻辑。面对算力武器化的现实风险，他抛出的解决方案异常天真。他呼吁要跟中共国展开对话，靠沟通来确保技术不被滥用。硅谷巨头的视角里，永远装不下大国博弈的残酷。致命的国家安全威胁，在他们眼里只是一场可以通过聊天化解的误会。

中文

223

57.9K

vickieGPT รีทวีตแล้ว

Paul E. McKenney@paulmckrcu·4d

If the RCU implementations that you are working with are to complex, reliable, and boring, this blog post is for you! people.kernel.org/paulmck/stupid…

English

2.8K

vickieGPT รีทวีตแล้ว

steve hsu@hsu_steve·4d

I dunno... feels like DeepSeek v4 is already up. It's incredibly fast and smart at math and physics. Stuff below is a reasoning trace that it cranked out at many tokens per second. Final result is polished and correct.

English

743

81.7K

ค้นพบ

@tenstorrent @intel @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA