vickieGPT

16.7K posts

vickieGPT

@yyw2000

🏳️‍⚧️ System Hacker.

Santa Cruz, CA 가입일 Temmuz 2012

7K 팔로잉12.9K 팔로워

고정된 트윗

vickieGPT@yyw2000·28 Oca

zett-ai.myshopify.com/products/cxl2-…

ZXX

19.8K

vickieGPT 리트윗함

IC and CS Tutorial@riscvprogram·9h

PicoRV32 is what happens when CPU design stops trying to look pretty and starts trying to win. It’s a tiny open-source RISC-V core, written in Verilog, built for one thing: doing more with less. No flashy giant pipeline. No bloated architecture diagrams. Just a brutally efficient design that fits where bigger cores can’t. That’s why PicoRV32 is so loved in FPGA and embedded projects: small area high clock potential easy to integrate real hardware mindset Textbook CPUs teach you how processors work. PicoRV32 teaches you how engineers actually build them. If you want to understand the gap between “computer architecture class” and “real CPU implementation,” start here. Tiny core. Big lesson. #PicoRV32 #RISCV #Verilog #FPGA #CPUDesign #ComputerArchitecture #DigitalDesign #OpenSourceHardware #EmbeddedSystems #RTL

English

2.3K

vickieGPT 리트윗함

vik@vikhyatk·1d

accelerated-computing.academy/fall25/resourc…

ZXX

1.8K

vickieGPT@yyw2000·54m

Proudly annouce our latest zettEngine with CPU GPU NPU with unified CXL Memory in 6000 USD, we are beating Nvidia Digit Spark and Apple M5 Max!

English

214

vickieGPT 리트윗함

駿HaYaO@QQ_Timmy·14h

Google 正與 Marvell Technology 洽談，共同開發兩款新型 AI 推論晶片。其中一款為記憶體處理單元（MPU），將搭配 Google 現有 TPU 使用；另一款則是專為運行 AI 模型設計的全新 TPU。 Google 也希望藉此分散晶片設計合作夥伴，降低對 Broadcom 的依賴。

NIK@ns123abc

BREAKING: Google is in talks with Marvell to build 2 new AI chips for inference >a memory processing unit that works alongside TPUs >a new TPU built specifically for running AI models Google plans to produce nearly 2 million memory processing units this is Google diversifying away from Broadcom, who charges fees on every TPU produced ITS HAPPENING

中文

8.2K

vickieGPT@yyw2000·6h

ZXX

377

vickieGPT 리트윗함

rick awsb ($people, $people)@rickawsb·1d

AI芯片的scale up，底层=物理的限制是reticle：光刻机一次只能曝光一个固定大小的区域，上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。行业突破这个限制的难度非常大，接近物理极限，因为光刻的面积和精度往往不能两全（镜头等设备限制），所以只能绕开它。早期是大GPU，但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径：一种是把系统做大，用一块更大的“硅底板”interposer把多个芯片拼在一起；另一种是把芯片拆小，再通过高速连接重新组合。 interposer本质上不做计算，只负责连接。GPU、HBM这些芯片放在上面，通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶，很大程度上不是因为算得更快，而是数据在不同芯片之间移动得更快。但interposer本身也会超过reticle的尺寸，这时候就需要用到stitching。做法就像拼瓷砖：一块一块曝光，然后精确对齐，拼成一个整体。难点在于精度控制，边界一旦对不齐，连线就会出问题。这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片，对时序的要求极高，任何纳米级误差都可能影响性能，所以不能用stitching。interposer因为只是布线层，没有复杂逻辑，可以容忍这种拼接带来的误差。围绕连接这件事，行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台，把所有芯片放在同一块interposer上，连接集中在这层完成，带宽能力很强，但成本也高。另一种是不做大底板，只在需要高速连接的地方嵌入一小块桥接结构，按需提供带宽，结构更灵活，制造压力也更小。在AI训练场景下，模型规模大，HBM带宽成为关键，整个平台需要维持极高的数据吞吐，这类设计更依赖大面积interposer。但推理场景的约束不一样，更关注成本、延迟和并发，带宽需求往往集中在局部，不需要整个平台都维持极致带宽。这时候，把芯片拆成多个模块，再用局部高速连接拼起来，会更合适。这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer，而是在关键位置提供高带宽连接，可以把计算、缓存、IO等模块分开设计，再按需组合。这样的结构更容易控制成本，也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说，这种灵活性很重要。当然，推理并不完全不需要高带宽。在一些大模型推理场景里，HBM依然重要，对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中，成本和规模才是核心约束，这使得模块化和局部互连的价值变得更高。站在26年一季度末看未来，AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大，而是把计算拆开，再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了，系统的规模则由连接能力决定。免责声明：本文非投资建议dyor

rick awsb ($people, $people) tweet media

中文

202

20.9K

vickieGPT 리트윗함

Jim Keller@jimkxa·14h

Intel won by RISCifying their CISC - still amazed how well x86-64 worked out LPUs is a subset of AI, an accelerator, it's not the RISC @tenstorrent , Trainium, Google TPU are closer. Clean Tensor processor is step one. Then generality, memory and Networking. And of course LInux and Open source software were key for Intel. AI software is a curious swamp tbh

Pushkar Ranade@magicsilicon

NVIDIA GPUs are the modern-day equivalent of the CISC ISA. TPUs, LPUs and other accelerators are the modern-day equivalent of the more elegant RISC ISA. Intel won the RISC vs CISC war of the 1990s. Who will win the AI architecture war of today? 🤔 The most optimal AI computer is yet to be built!

English

469

51.1K

vickieGPT 리트윗함

Jesse Zhang@Nag1ovo·1d

1/ 用了三年的 M2 Air 16G，在 Agents + Chrome 多开下已经撑不住了。回国顺手换了台 M5 Pro MBP 48G，从零开始配。原则：less is more。只留离不开的，其它一律 say goodbye。 2026 我的开发环境 👇

中文

125

43.6K

vickieGPT 리트윗함

勃勃OC@bboczeng·1d

Claude是真的要即将实现AGI了现在All In还来得及国内那几百个大语言模型其实全都是蒸馏的产物真的没什么必要吹的碰到瓶颈，直接完蛋谢谢大家

汉松@Yonah_x

Claude Design 真的太 agentic 了，它的导出 HTML 功能居然就是发一个指令给旁边的 Agent，让它开发一个 HTML 页面。一个功能就是一个 prompt，这应该就是未来的 Agent 软件雏形了。所有功能都不需要代码，直接让 Agent 现场开发就行。我突然有一种 prompt 即代码的感觉，Agent 成了 prompt 的解释器，以前是通过 Python 解释器来执行 Python，现在直接通过 Agent 去执行 prompt 就可以了，代码成了更底层的抽象。

中文

26.6K

vickieGPT@yyw2000·1d

mac bug还是太多了

中文

538

vickieGPT 리트윗함

勃勃OC@bboczeng·1d

我有一个暴论：AI时代，Windows笔记本已经基本没救了一个原因是Windows的AI API适配能力不如Mac，毕竟Mac是UNIX标准系统，命令行的实用性更高，利好桌面型智能Agent 另一个原因是RAM。M系列芯片早就在搞统一内存了，导致模型可用内存特别是带宽足够大；而受限于台湾主板产业链的利润分配，Wintel联盟还在用DDR内存，最大也就32，64GB，而且不是统一内存，显寸需要另算，访问内存需要走总线，带宽更差，Prefill和Inference都吃亏完了，想不到在AI上毫无投入的苹果，竟然成为AI发展的最大受益者把所有事情都做到极限，这就是苹果永远能赢的哲学吧不说了，加仓AAPL！ 😅😅😅

中文

160

608

203.9K

vickieGPT@yyw2000·1d

Introducing hardware JIT and Coherent bus Replay Fabric

English

4.2K

vickieGPT 리트윗함

Underfox@Underfox3·2d

In this paper is presented a hardware accelerated implementation of a topology optimization neural network on the AMD Versal AI Engine-ML architecture. arxiv.org/pdf/2604.14700

English

2.9K

vickieGPT 리트윗함

Vivek Galatage@vivekgalatage·3d

Understanding glibc malloc by sploitfun sploitfun.wordpress.com/2015/02/10/und… * How is heap memory obtained from the kernel? * How efficiently is memory managed? * Is it managed by the kernel, by the library, or by the application itself? * Can heap memory be exploited? Get those answers.

Vivek Galatage@vivekgalatage

glibc malloc internals sourceware.org/glibc/wiki/Mal… #MemoryManagement

English

500

50.9K

vickieGPT 리트윗함

Jim Keller@jimkxa·1d

TT-Lang from Tenstorrent from Groq? It’s a Python-based DSL that lets you write high-performance custom kernels and fused ops directly on Tensix cores, Blackhole, etc.. Think “Triton but made for Tenstorrent hardware.” V 1.0 next week

English

247

200.9K

vickieGPT 리트윗함

Ding@dingyi·2d

笑死，虽然 Anthropic 那么讨厌中国，但涉及到硬件的项目还是离不开深圳。 github.com/anthropics/cla…

中文

401

138.8K

vickieGPT 리트윗함

雨哥向前冲@xiangxiang103·2d

疑似 DeepSeek V4 技术报告的 benchmark泄露！图中的“DeepSeek-V4 技术报告”基准测试（Benchmark）数据，为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体（Agent）四大维度的成绩单来看，DeepSeek-V4 展现出了极强的统治力，而大模型的第一梯队也正在经历重新洗牌。 🏆 竞争格局：当前大模型梯队划分从图表数据中，我们可以清晰地看到五款参评模型的实力分层： 👑 领跑者：DeepSeek-V4在所有 12 项严苛测试中均斩获最高分（State-of-the-Art），实现了跨维度的全面压制。 🥈 最强追赶者：Gemini 3.1 Pro Preview在多项核心指标上紧咬榜首，并在绝大多数测试成绩中超越了 GPT-5.3，是目前这组对比中最具竞争力的对手。 🥉 第三梯队：GPT-5.3 与 Claude Opus 4.6两者互有胜负，依然保持着极高的水准，但在最顶尖的竞争中已稍显疲态。 📏 基准线参照：GPT-4.1作为较早期模型的代表，其数据在这组对比中全面垫底，但也直观地印证了新一代模型技术跨越的幅度之大。 🔍 四大核心能力深度拆解 🧠 1. 综合常识与学科能力 (General) 核心数据：在极具挑战性的 MMLU-Pro 测试中，DeepSeek-V4 (91.2) 和 Gemini 3.1 Pro (90.0) 是唯二突破 90 分大关的模型。行业洞察：跨学科的专家级知识问答对头部模型已不再是难题。GPT-5.3 (88.4) 和 Claude (86.7) 在这方面稍显落后，知识密度的竞争正在向 90+ 的极限逼近。 🧮 2. 数学与复杂推理 (Reasoning & Math) 核心数据：顶尖数学竞赛基准 AIME 2025 呈现极度“内卷”的态势（DeepSeek-V4 96.4，Gemini 95.0，GPT-5.3 94.6）。行业洞察：数学是 AI 进步最神速的领域。90+ 的得分意味着这些模型在解决人类高难度奥数题时已经具备了压倒性的优势，各家在这个领域的差距往往只在几道题之间。 💻 3. 编程与工程能力 (Code) 核心数据：在 Codeforces（算法竞赛平台）上，DeepSeek-V4 飙升至 2767 分，拉开显著差距；但在评估修复真实软件工程 Bug 的 SWE-bench Verified 中，所有模型均未突破 60%（最高为 DeepSeek-V4 的 59.6%）。行业洞察：“写算法题容易，改人类代码难”。模型在纯逻辑生成上已经达到竞赛级选手水平，但在理解和修改复杂的现实商业代码库时，依然存在明显的短板。 🤖 4. 智能体自主行动 (Agent) 核心数据：在模拟网页浏览和执行任务的 WebArena 测试中，全场最高分（DeepSeek-V4）仅为 58.7，GPT-4.1 甚至低至 44.8。行业洞察：这是全表绝对得分最低的板块。它反映了当前的行业痛点：大模型“做题”和“写文章”能力极强，但如果让它像人类一样自主操作浏览器、跨应用处理多步骤现实任务，成功率依然堪忧。 💡 核心总结这份基准测试不仅是 DeepSeek-V4 强悍实力的“肌肉秀”，也侧面印证了 Gemini 3.1 Pro Preview 在当前技术路线上的极强竞争力。更重要的是，它为行业指明了下一步的攻坚方向——当模型的知识储备和做题能力逼近人类极限时，突破“智能体自主执行 (Agentic tasks)”的现实应用瓶颈，将是决定下一代 AI 霸权的关键。仅针对图中数据解读，真实情况还有待验证！