Little Squirrel

2 posts

Little Squirrel

Little Squirrel

@squirrel__cute

Katılım Nisan 2024
0 Takip Edilen2 Takipçiler
Sabitlenmiş Tweet
Little Squirrel
Little Squirrel@squirrel__cute·
🦆 I turned 32 Intel N100 mini PCs into a DeepSeek-V3.2 685B inference cluster. No NVLink. No InfiniBand. Just 1 RTX 5090, 32 old online-judge nodes, and Ethernet. The trick: 🧠 keep Attention on the GPU 🦆 run MoE on the N100 cluster ⚡ design fp9 format so AVX2-only tiny cores can do MoE GEMV Result: 11 input tokens, 2037 output tokens 16.171 tok/s decode ~89% MTP1 acceptance Technical report, currently in Chinese: judgeduck.ai/duck-llm/ *Personal hobby project, NOT related to any organization* ---------- 🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群。 没有 NVLink。 没有 InfiniBand。 只有 1 张 RTX 5090、32 台原本用于在线评测的 N100、和普通以太网。 关键想法: 🧠 Attention 留在 GPU 🦆 MoE 层交给 N100 集群 ⚡ 自定义 fp9 数据格式,让 AVX2 小核也能跑 MoE GEMV 最终: 11 tokens 输入,2037 tokens 输出 16.171 tok/s decode MTP1 接受率约 89% 技术报告: judgeduck.ai/duck-llm/ *个人娱乐项目,与任何组织均无关联*
Little Squirrel tweet mediaLittle Squirrel tweet mediaLittle Squirrel tweet media
English
0
4
3
300