Sabitlenmiş Tweet

🦆 I turned 32 Intel N100 mini PCs into a DeepSeek-V3.2 685B inference cluster.
No NVLink.
No InfiniBand.
Just 1 RTX 5090, 32 old online-judge nodes, and Ethernet.
The trick:
🧠 keep Attention on the GPU
🦆 run MoE on the N100 cluster
⚡ design fp9 format so AVX2-only tiny cores can do MoE GEMV
Result:
11 input tokens, 2037 output tokens
16.171 tok/s decode
~89% MTP1 acceptance
Technical report, currently in Chinese:
judgeduck.ai/duck-llm/
*Personal hobby project, NOT related to any organization*
----------
🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群。
没有 NVLink。
没有 InfiniBand。
只有 1 张 RTX 5090、32 台原本用于在线评测的 N100、和普通以太网。
关键想法:
🧠 Attention 留在 GPU
🦆 MoE 层交给 N100 集群
⚡ 自定义 fp9 数据格式,让 AVX2 小核也能跑 MoE GEMV
最终:
11 tokens 输入,2037 tokens 输出
16.171 tok/s decode
MTP1 接受率约 89%
技术报告:
judgeduck.ai/duck-llm/
*个人娱乐项目,与任何组织均无关联*



English