fudingyu (@fdy) - Hồ sơ Twitter | Zamantika Mersobahis Locabet

fudingyu đã retweet

Reasoning VLAs can think. They just can't think fast. Until now. Introducing FlashDrive⚡ 🚀 716 ms → 159 ms on RTX PRO 6000 (up to 5.7×) ✅ Zero accuracy loss FlashDrive = streaming inference + DFlash speculative reasoning + ParoQuant W4A8 Real-time reasoning for autonomous driving is here! z-lab.ai/projects/flash…

English

9

75

555

47.3K

fudingyu đã retweet

Kye Gomez (swarms)@KyeGomezB·1d

Introducing OpenMythos An open-source, first-principles theoretical reconstruction of Claude Mythos, implemented in PyTorch. The architecture instantiates a looped transformer with a Mixture-of-Experts (MoE) routing mechanism, enabling iterative depth via weight sharing and conditional computation across experts. My implementation explores the hypothesis that recursive application of a fixed parameterized block, coupled with sparse expert activation, can yield improved efficiency–performance tradeoffs and emergent multi-step reasoning. Learn more ⬇️🧵

English

178

931

6.7K

1.1M

fudingyu đã retweet

Thanh Pham@runsonai·4d

I open-sourced DDTree-MLX: tree-based speculative decoding for Apple Silicon. Now you can run Qwen 3.5 27b on your Apple machines 1.5x faster than normal. Expect even faster on smaller models. It runs Qwen 3.5 27B locally with MLX, extends DFlash with draft trees, and gets ~10-15% faster than DFlash alone on code + structured prompts while keeping output lossless. Built on the works of @bstnxbt @liranringel @yaniv_romano github.com/humanrouter/dd…

English

25

56

514

33.8K

fudingyu@fdy·4d

@geekbb 像这个多屌 x.com/runsonai/statu…

Thanh Pham@runsonai

I open-sourced DDTree-MLX: tree-based speculative decoding for Apple Silicon. Now you can run Qwen 3.5 27b on your Apple machines 1.5x faster than normal. Expect even faster on smaller models. It runs Qwen 3.5 27B locally with MLX, extends DFlash with draft trees, and gets ~10-15% faster than DFlash alone on code + structured prompts while keeping output lossless. Built on the works of @bstnxbt @liranringel @yaniv_romano github.com/humanrouter/dd…

中文

0

134

Geek@geekbb·4d

什么！？

中文

31

2

46

39.7K

fudingyu@fdy·4d

@geekbb 有这时间搞这个说实话不如搞搞算法优化来得直接

中文

0

253

fudingyu@fdy·13 Nis

@PWenzhen76938 这么有诚意必须支持一下

中文

0

10

Powerpei🦅@PWenzhen76938·12 Nis

前两天我发Gemma 4的时候，在评论区留了一句： > “我现在在测试一个想法：用 Gemma 4 做一个完全离线的个人知识库 Agent，所有数据在本地，所有推理在本地，没有 API 费用，没有隐私问题。如果测试顺利，我会分享具体的部署方案和我踩过的坑。” 现在测试结束了我把整个过程、踩过的所有坑、最终方案一次性抛出来完全真实操作记录，没有云端API，没有任何营销，纯个人复盘 --- 我以前用ChatGPT/Claude做笔记，搜个人文档，总是心里不踏实： - 输入客户资料、Space灵感稿、投资笔记时，总担心被用来训练 - 想让AI 24h随时分析我的推文 + 阅读记录，它动不动就断线、要钱 - 最重要的是：我想拥有一个真正属于自己的AI助手，不是租来的 Gemma 4 31B（量化后 17.4GB）+ 4090正好能跑 Apache 2.0协议又随便改，256K上下文能容一整本书去了 native function calling 又稳这不就是离线个人知识库的完美底座吗？于是我花了整整一个周末加上后续一周迭代，把它做成了现在这个完全离线的个人知识库Agent --- 我的最终硬件 & 环境（真实配置）硬件 → GPU：RTX 4090 24GB（31B Q4_K_M 量化后实测占用约 19-21GB VRAM，留 3GB 给 embedding 和系统） → CPU:AMD 7950X → 内存：64GB DDR5 → 存储：2TB NVMe（知识库目前塞了约 1800 份 PDF+MD+Notion 导出）软件栈 → Ollama（主力推荐，Mac/Linux/Windows 都能跑） → LlamaIndex（RAG框架，最稳） → nomic-embed-tex（本地embedding，中文支持好） → Chroma（向量库，本地持久化） → AnythingLLM（前端界面，可选，但我最后还是直接用LlamaIndex + Streamlit 更灵活） --- 完整部署方案（一步步手把手，可直接复制，因为不支持Markdown代码块渲染，所以我文字输出，复制时候对比下） 1. 安装Ollama +拉模型（最简单一步） ```bash # Mac/Linux/Windows 都一样 ollama pull gemma4:31b # 官方直接用 gemma4:31b-it（instruct 版） # 或者直接用量化好的 GGUF（HuggingFace 搜 google/gemma-4-31B-it-GGUF） # 我最终用的是 Q4_K_M，速度和质量平衡最好 ``` --- 2. 准备embedding模型 ```bash ollama pull nomic-embed-text ``` --- 3. 搭建RAG核心（LlamaIndex关键代码） ```python from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings from llama_index.llms.ollama import Ollama from llama_index.embeddings.ollama import OllamaEmbedding # 配置 Settings.llm = Ollama(model="gemma4:31b", request_timeout=300.0) Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text") Settings.chunk_size = 1024 # 按需调整，1024 效果最好 Settings.chunk_overlap = 200 # 加载你的知识库文件夹（支持 PDF、MD、TXT、DOCX） documents = SimpleDirectoryReader("./my_knowledge_base").load_data() index = VectorStoreIndex.from_documents(documents, show_progress=True) # 持久化 index.storage_context.persist(persist_dir="./storage") ``` --- 4. 把Agent 跑起来我用LlamaIndex的ReAct Agent +自定义工具： ➤ 工具1：`query_knowledge_base`（检索我的所有笔记） ➤ 工具2：`save_to_note`（把新洞见自动保存回知识库）核心 Prompt 我改成了： > “你是我的私人AI研究员，只基于本地知识库回答，永远不要编造。如果不确定就说‘知识库中暂无相关记录’。” --- 5. 前端界面（我用 Streamlit 5分钟搞好）现在手机/电脑随时能用： > “把我上周Space里聊的美股机制总结一下”，它秒出，还带来源引用整个部署从0到能用，大概花了4小时（不包括后面调优） --- 完整踩坑记录（这些坑我全踩过，血泪教训）坑1：OOM+ 上下文爆炸（最致命）第一次直接扔256K 上下文 + 大文档，直接显存炸了解决： · 强制设置 `--ctx-size 8192` + KV cache用q4_0 · `chunk_size` 从2048降到1024 · 现在长文档也能稳稳处理 --- 坑2：中文检索效果差用默认bge-large-en，搜我的中文Space记录经常miss 解决： · 换 `nomic-embed-text` + 手动加了中文stopwords过滤 +Hybrid Search（BM25+Vector） · 命中率从60% 提到92% --- 坑3：Agent 幻觉+死循环刚开始Agent老是“自信地”编造我没写过的东西，或者卡在循环里解决： ➢ 强制加system prompt + 设置 `max_iterations=8` + 加入self-reflection step --- 坑 4：文档解析炸裂（尤其是PDF）很多PDF是扫描稿或表格，直接拉稀解决： ➢ 先用 LlamaParse 本地版或者 [unstructured.io](unstructured.io) 预处理，现在表格也能正常读了 --- 坑 5：速度慢到想砸电脑刚开始生成速度只有8-12 t/s 解决： ➢ 用Q4_K_M + 开启GPU offload（`n-gpu-layers=-1`） ➢ 现在实测稳定28-35 t/s，完全能接受 --- 坑6：知识库更新麻烦每次加新文件都要重新 build index 解决： ➢ 用了Incremental Index + 定时脚本，每天凌晨自动增量更新 --- 现在这个Agent到底能干啥？（真实使用2周感受） 1. 问任何我去过的长文、Space记录、阅读笔记，它都能精准引出处 > 我：“上周我在DeFi项目笔记里提到过30天所有项目笔记做个对比表格” > Agent:30 秒出完整Markdown表格 2. 让我把最近30天周读总结，发到Notion 自动帮我生成周读总结，发到 Notion 3. 最爽的是：完全离线，飞机上、地铁上、甚至断网也能用，隐私100%可控这感觉真的不一样它不再是云端租来的AI，而是长在我电脑里的私人研究员 --- 最后一点思考 Gemma 4 31B 把本地AI 的门槛真正拉到了一张高端显卡就能干大事的水平我现在越来越相信：2026年的Web3+AI真正落地，可能不是链上训练，而是主权模型+主权数据+本地Agent 你呢？ ➤已经在跑本地知识库Agent的，欢迎评论区分享你的方案**（尤其是踩过的坑） ➤还在犹豫要不要上Gemma 4 的，说说你最担心哪一步我把完整代码、Modelfile、Streamlit前端全放GitHub了（评论“代码”我发链接）纯个人复盘，所有数据和体验来自真实操作，不做任何推广

Powerpei🦅@PWenzhen76938

前两天我发了Gemma 4的技术整理和实战体验，很多朋友在评论区问： “为什么这么多人下载？是因为它免费吗？” 我想了很久，我发现答案不是这么简单 ➢一周下载破1000万，这个数字背后藏着一个信号，大多数人都没注意到 --- 我最近越来越觉得不对劲我用了1年ChatGPT、Claude、Gemini. 每次我输入客户资料、内部文档、商业想法的时候，我都会犹豫一下： ➢这些数据会被拿去训练模型吗？会被泄露吗？还有一件事让我很不爽： OpenAI可以随时调整GPT-4的参数，Claude可以随时改 Opus的行为你今天调好的prompt，明天可能就不好使了你的AI能力，永远被API额度锁死你想做个Agent跑24小时？对不起，API费用可能让你破产你想部署到离线环境？对不起，没网就没AI --- ➢为什么1000万人选择下载Gemma 4？不是因为它跑分高（虽然AIME 89.2% 确实猛）而是因为人们终于意识到：AI不应该是租来的黑盒，AI 应该是你真正拥有的工具 --- 我在想三个趋势 1. 可以拥有的AI会成为必需品你想想，你不会把所有照片都存在别人的云盘上同样的，以后你也不会把所有AI工作流都放在别人的API 上 ➢医疗、法律、金融这些行业，企业内部的Agent，科研项目，国家的主权AI 这些场景必须用本地模型 Gemma 4把门槛降到了“一张显卡”的水平，这是一个大变化 31B 压缩后17.4GB，E4B版5GB能在手机上跑多模态这不是玩具，这是真正能干活的工具 --- 2. 独立开发者和小团队的好时代要来了以前你做AI应用，要么租API（成本高），要么租GPU（更贵）现在呢？ 31B版在Codeforces拿2150分，26B MoE速度接近4B但能力接近 31B ➢小团队做垂直Agent、做私有化部署、做离线工具，成本直接降到最低这波机会，是给那些不想被API 绑住的人 --- 3. Web3+ AI的真正落地点，可能就在这里我一直在想：Web3和AI怎么结合？以前的答案都是“链上AI”、“去中心化训练” 听起来很酷，但是太难落地了但是如果 AI能在本地跑，数据不上链也能保证隐私，主权数据+ 主权模型+链上验证这才是真正的去中心化AI Gemma 4把云端能力搬回家，Apache 2.0完全开放权重 + 完全开放许可 ➢你完全掌控模型、数据和运行环境这是 2026年本地AI的一个重要节点 --- 我昨天测了一整天 ➢agent流程很稳，长上下文没出问题，function calling比我想的还要好用我现在在测试一个想法：我想用Gemma 4做一个完全离线的个人知识库Agent 所有数据在本地，所有推理在本地，没有API费用，没有隐私问题如果测试顺利，我会分享具体的部署方案和我踩过的坑 --- 最后一个问题 ➢如果AI可以完全属于你，你会用它做什么？我说的不是“用ChatGPT写个文案” 我说的是“拥有一个24 小时在线、完全听你指挥、永远不会泄露你秘密的AI助手” 这个问题，我还在想但是我知道，答案不在云端，答案在本地（这是我的个人思考，不是推广。已经上手的朋友，欢迎评论区聊聊你的想法）

中文

128

138

636

258.8K

fudingyu đã retweet

Wildminder@wildmindai·9 Nis

RotorQuant - upgraded TurboQuant. > 10x KV cache compression > 28% faster decoding > 5x faster prefill > 44x fewer parameters Same quality as full attention. 1/10th the memory. Ok, another massive VRAM discount for local LLMs. github.com/scrya-com/roto…

English

33

162

1.4K

64.6K

fudingyu@fdy·8 Nis

@discountifu 你看看这个方案怎么样？Mac Studio M3 Ultra，外接一块 RTX 4090，跑 7B 模型从 35 token/s 直接飙到 120+。Mac 管内存，英伟达管算力，两边各干各擅长的事。

中文

0

1

849

大梦想家迪士尼@discountifu·8 Nis

128GB M5 Max 运行本地大模型的预估表现笔记本跑本地模型是伪命题还是安心包月 Coding Plan 吧

中文

26

3

75

31.6K

fudingyu@fdy·7 Nis

@Gracker_Gao 速度如何？

中文

0

18

Gracker@Gracker_Gao·6 Nis

推荐我跑 31B IT Dense 4bit 量化：mlx-community/gemma-4-31b-it-4bit`** — 性价比最高，质量和速度的最佳平衡你的硬件Mac Studio M1 Ultra / 64GB 统一内存，Gemma 4 MLX 可选模型 | 模型 | 架构 | 量化 | 显存占用（估） | 能跑？ | 说明 | |------|------|------|--------------|--------|------| | **31B IT** | Dense | 4bit | ~16GB | ✅ | **推荐**，质量飞跃 | | **31B IT** | Dense | 5bit | ~20GB | ✅ | 4bit 和 5bit 之间选 | | **31B IT** | Dense | 6bit | ~23GB | ✅ | 精度和速度平衡 | | **31B IT** | Dense | 8bit | ~31GB | ✅ | 精度最高，速度慢一些 | | 31B IT | Dense | bf16 | ~62GB | ❌ | OS 吃 8-10G，放不下 | | **26B A4B IT** | MoE | 4bit | ~13GB | ✅ | 你 Ollama 已有这个 | | **26B A4B IT** | MoE | 8bit | ~26GB | ✅ | 现有 MoE 升级精度 | | 26B A4B IT | MoE | bf16 | ~50GB | ⚠️ | 能跑但很紧，不推荐 | | E2B IT | Dense | nvfp4 | ~1.5GB | ✅ | 太小，没意义 | | E4B | Dense | nvfp4 | ~3GB | ✅ | 同上 | 关键判断 **你 Ollama 已经在跑 `gemma4:26b-a4b-it-q4_K_M`（17GB）。** 26B A4B 的特点是 25.2B 总参但每 token 只激活 ~3.8B——速度快但实际推理能力受限于 active params。 **值得升级的是 31B IT Dense**——这是完全不同的档次： - 31B 全参激活，推理能力远超 4B active 的 MoE - 4bit 量化只占 ~16GB，64GB 内存绰绰有余 - MLX 在 Apple Silicon 上的推理速度比 Ollama（llama.cpp 后端）可能更快 - 支持 256K 上下文、多模态（图片+视频）、原生 function calling、内置 reasoning mode ## 推荐方案 1. **首选 `mlx-community/gemma-4-31b-it-4bit`** — 性价比最高，质量和速度的最佳平衡 2. 如果对精度有要求，试 **`gemma-4-31b-it-6bit`**（~23GB，仍然宽裕） 3. 现有的 26B A4B 可以保留，作为**快速低延迟任务**的备用（cron/heartbeat 等）要我帮你拉下来试跑？MLX 的安装和推理用 `pip install mlx-lm` 就行。

yishan@linyishan

Google的开源模型 Gemma-4-31B-it 在 Hugging Face的趋势排行榜上，已经排到第一位！高玩 Gemma-4-31B 的硬件建议： 1. 显存 (VRAM) 需求显存是本地运行该模型的核心瓶颈：全精度 (BF16/FP16)：约需 58.3 GB - 62 GB 显存。至少需要一张 NVIDIA H100 (80GB) 或 A100 (80GB) 级别的企业级显卡，才能单卡运行。 8-bit 量化 (SFP8)：约需 30.4 GB 显存。 4-bit 量化 (Q4_K_M)：约需 17 GB - 20 GB 显存。可以使用单张 NVIDIA RTX 3090 (24GB) 或 RTX 4090 (24GB) 运行。 2. 内存 (RAM) 需求如果你使用 llama.cpp 等工具进行 CPU 推理或部分显存卸载，至少 32GB 内存，推荐 64GB 以应对更长的上下文。 3. 处理器 (CPU) 与其他 CPU：建议使用多核高性能处理器，如 Intel i9 或 AMD Ryzen 9 级别，以保证量化后的推理速度。存储：模型权重文件大约占用 20GB - 60GB 空间。

中文

4

2

25

7.6K

fudingyu đã retweet

Ben James@BenJames_____·6 Nis

I made a USB-Clawd who gets my attention when Claude Code finishes a response

English

422

1.3K

19.8K

1.3M

fudingyu đã retweet

Paul Couvert@itsPaulAi·6 Nis

You can now fine-tune Gemma 4 (and 500 other open source models) in a free Google Colab 🔥 1. Open the Colab notebook below 2. Run the blocks to launch Unsloth Studio 3. Choose a model and dataset 4. Hit 'Start Training' And you're done!

English

21

271

2K

176.4K

fudingyu@fdy·5 Nis

@Kellyv_ai 关键是能搞出啥应用场景？

中文

0

1K

KellyV@Kellyv_ai·5 Nis

我已经让谷歌 Gemma4在 iPhone 上跑起来了，本地推理，不联网，14 tok/s，E4B + E2B 都调通了，后面我会整理下开源。 #Gemma4 #iOS #OnDeviceAI

中文

119

223

1.6K

299.3K

fudingyu@fdy·5 Nis

@wastemobile 你看苹果这个蒸馏技术很简单了 x.com/berryxia/statu…

Berryxia.AI@berryxia

兄弟们，原来蒸馏如此的见效快！难怪大厂都热衷于此哈哈哈😂 Apple Research（苹果研究院）刚刚发布了一篇“超级简单却效果炸裂”的论文，标题直接叫《Embarrassingly Simple Self-Distillation Improves Code Generation》（尴尬的简单自蒸馏就能大幅提升代码生成能力）。论文核心发现（Simple Self-Distillation，简称SSD）：你不需要： - 更好的教师模型 - 任何verifier（正确性验证器） - RL（强化学习） - 代码执行环境 - 外部标签或奖励模型方法简单到离谱： 1. 用当前模型自己采样生成代码（带一定temperature和truncation，不用greedy解码） 2. 完全不过滤这些输出的正确性 3. 直接拿这些“原始”输出做标准SFT（监督微调）就这么三步，模型就能大幅进步！实测效果（震撼）： - Qwen3-30B-Instruct：LiveCodeBench pass @1 从 42.4% → 55.3%（相对提升30%！） - 尤其在hard problems上提升最大：pass@5 从31.1% → 54.1% - 只需每个prompt采样1次就够 - 在Qwen和Llama系列的4B、8B、30B规模上全部有效（包括instruct和thinking变体）论文最有洞见的解释：很多coding模型其实已经把“正确能力”藏在权重里了，只是greedy decoding（贪婪解码）把它锁住了。 SSD通过在自己生成的数据上训练，上下文依赖地重塑token分布。在需要精确的地方压制干扰项，在需要探索的分支处保留多样性，从而把模型的潜在能力真正释放出来。总结一句话： “很多coding模型其实在用自己的权重‘欠发挥’。用自己的输出再训一轮，就能把藏着的实力挖出来，而且完全不需要外部信号。”** 地址见评论区👇

中文

0

156

wastemobile@wastemobile·4 Nis

我也在 Mac mini M4 pro 64G 機器上快速用 Ollama 測了 Gemma 4 26B A4B，不確定是 MLX 加速版（體感不像）。結果明顯：一年多來首次覺得本地模型可以日常使用，不笨，也不會遮羞宣教。 ref. April 2026 TLDR Setup for Ollama + Gemma 4 on a Mac mini (Apple Silicon) t1p.de/sjw32

中文

13

7

113

19.2K

fudingyu@fdy·5 Nis

@tcdwww 载简单搞搞蒸馏就可以完美本机使用了x.com/berryxia/statu…

Berryxia.AI@berryxia

兄弟们，原来蒸馏如此的见效快！难怪大厂都热衷于此哈哈哈😂 Apple Research（苹果研究院）刚刚发布了一篇“超级简单却效果炸裂”的论文，标题直接叫《Embarrassingly Simple Self-Distillation Improves Code Generation》（尴尬的简单自蒸馏就能大幅提升代码生成能力）。论文核心发现（Simple Self-Distillation，简称SSD）：你不需要： - 更好的教师模型 - 任何verifier（正确性验证器） - RL（强化学习） - 代码执行环境 - 外部标签或奖励模型方法简单到离谱： 1. 用当前模型自己采样生成代码（带一定temperature和truncation，不用greedy解码） 2. 完全不过滤这些输出的正确性 3. 直接拿这些“原始”输出做标准SFT（监督微调）就这么三步，模型就能大幅进步！实测效果（震撼）： - Qwen3-30B-Instruct：LiveCodeBench pass @1 从 42.4% → 55.3%（相对提升30%！） - 尤其在hard problems上提升最大：pass@5 从31.1% → 54.1% - 只需每个prompt采样1次就够 - 在Qwen和Llama系列的4B、8B、30B规模上全部有效（包括instruct和thinking变体）论文最有洞见的解释：很多coding模型其实已经把“正确能力”藏在权重里了，只是greedy decoding（贪婪解码）把它锁住了。 SSD通过在自己生成的数据上训练，上下文依赖地重塑token分布。在需要精确的地方压制干扰项，在需要探索的分支处保留多样性，从而把模型的潜在能力真正释放出来。总结一句话： “很多coding模型其实在用自己的权重‘欠发挥’。用自己的输出再训一轮，就能把藏着的实力挖出来，而且完全不需要外部信号。”** 地址见评论区👇

中文

0

1

2.5K

碗@tcdwww·5 Nis

太感动了，gemma4:31b ，这竟然是我能在本地跑的模型！！

中文

45

8

297

154.2K

fudingyu đã retweet

Bo Wang@BoWang87·3 Nis

Apple Research just published something really interesting about post-training of coding models. You don't need a better teacher. You don't need a verifier. You don't need RL. A model can just… train on its own outputs. And get dramatically better. Simple Self-Distillation (SSD): sample solutions from your model, don't filter them for correctness at all, fine-tune on the raw outputs. That's it. Qwen3-30B-Instruct: 42.4% → 55.3% pass@1 on LiveCodeBench. +30% relative. On hard problems specifically, pass@5 goes from 31.1% → 54.1%. Works across Qwen and Llama, at 4B, 8B, and 30B. One sample per prompt is enough. No execution environment. No reward model. No labels. SSD sidesteps this by reshaping distributions in a context-dependent way — suppressing distractors at locks while keeping diversity alive at forks. The capability was already in the model. Fixed decoding just couldn't access it. The implication: a lot of coding models are underperforming their own weights. Post-training on self-generated data isn't just a cheap trick — it's recovering latent capacity that greedy decoding leaves on the table. paper: arxiv.org/abs/2604.01193 code: github.com/apple/ml-ssd

English

56

202

1.7K

518.8K

fudingyu@fdy·5 Nis

@tcdwww 听着风扇声更带劲哈哈哈

中文

0

1.3K

fudingyu@fdy·5 Nis

@hylarucoder 从产品打磨的角度来说应该是Prompt->Skill->Harness，从性能可靠性来说是反过来的。

中文

0

441

海拉鲁编程客@hylarucoder·4 Nis

真心建议每个程序员都去手搓一个自用的 Coding Agent。纯靠写 Prompt 糊文本做 Skill，观测性太差了，你根本摸不到 harness 模型的上限在哪。缺乏 Agent 的状态流转做约束，复杂任务根本控不住。最近用 AI 搓了个 mini 版的 Claude Code，对 Agent 的理解稍微升了点。 PS: 我经常从 Gemini / GPT-5.4 蒸馏 SOP Skill，再下放给 @MiniMax_AI 模型来跑任务. 建议可以考虑试试.

中文

76

113

1.1K

147.1K

fudingyu đã retweet

anirudh bv@anirudhbv_ce·3 Nis

I implemented @GoogleResearch's TurboQuant as a CUDA-native compression engine on Blackwell B200. 5x KV cache compression on Qwen 2.5-1.5B, near-loseless attention scores, generating live from compressed memory. 5 custom cuTile CUDA kernels ft: - fused attention (with QJL corrections) - online softmax -on-chip cache decompression - pipelined TMA loads Try it out: devtechjr.github.io/turboquant_cut… s/o @blelbach and the cuTile team at @nvidia for lending me Blackwell GPU access :) cc @sundeep @GavinSherry

English

145

309

3.3K

786.5K

fudingyu đã retweet

dealign.ai@dealignai·4 Nis

New project coming soon - Mac LLM users would be able to inference while at some cases only needing 1/3rd the amount of RAM Will be open source by next week; not theoretical, fully working with these models. Will update after testing GLM 5 and Kimi 2.5, and will do MMLU tests with all models for more information. #macbook #llm #mlx

English

26

34

571

28.1K

fudingyu@fdy·4 Nis

@Gracker_Gao 大家说的是对的，MoE和MoE比。

中文

0

749

Gracker@Gracker_Gao·4 Nis

对比了一下 Qwen3.5 27b 和 Gemma4 ，我的 64G 的 Mac 跑 Gemma4 非常流畅，跑 Qwen3.5 27b 就不咋地。原因还是内存大小和 Dense vs MoE 架构的差异：模型加载到内存不只是存权重，还要为推理预留 KV Cache（存注意力历史）和激活值（中间层计算结果）。这两块的大小直接取决于每个 token 要计算多少参数。 • Dense 27B：每个 token 全部 27B 都参与计算 → KV cache 和激活值按 27B 量级分配 → 直接翻倍 • MoE 26B：每个 token 只激活 4B → KV cache 和激活值按 4B 量级分配 → 几乎等于一个 4B 小模型的开销所以 gemma4 的 26B 参数看着和 qwen3.5:27b 差不多大，但推理时的"活跃成本"差了 6 倍多。这也是为什么 MoE 在本地推理场景下碾压 Dense——大模型的脑子，小模型的功耗。代价： MoE 用"每次只看一小部分"换来了"几乎免费的大参数量"。便宜是真便宜，但在你的 Mac Studio 上跑——gemma4 的实际能力上限大概等于一个高质量的 4-7B dense 模型，远不到 27B dense 的水平。容灾兜底够用，指望它干精细活不太行。

中文

21

10

85

28.6K

fudingyu

Khám phá