kokostr
74 posts


通义千问新出的 Qwen3.5-35B-A3B,直接把单卡长上下文推理卷到了新高度。
350亿参数的模型,但每次生成只激活30亿参数,用的是门控增量混合架构:256个专家,每次只调用8个,每4层才做一次注意力计算,天生就省算力、省显存。
最离谱的是长上下文表现:
单张24GB显存的RTX 3090,直接开满 262K超长上下文,跑出 112 token/秒,而且从4K到262K上下文,速度几乎不掉!
传统35B模型一上长上下文,KV缓存爆炸、速度暴跌,24GB显存根本扛不住。
而这模型40层里只有10层用普通注意力,剩下30层是固定显存的循环结构,上下文再长,显存占用几乎不变。
满跑262K上下文,总显存才 22.4GB,24GB显卡轻松拿下。
更夸张的是社区力量:
5天、15块显卡,峰值速度冲到 176 tok/s。
48小时内,各路显卡都刷出了高分:
• 优化前:默认50 tok/s左右
• 优化后:直接翻倍,5090跑到176 tok/s
核心就5个参数,把层全卸到GPU、压缩KV缓存、开满上下文、精简循环状态、开Flash Attention,一夜之间性能质变。
总结一句话:
一张消费级显卡、24GB显存、零API费用,就能跑35B级、262K上下文、百tok/s级的大模型。
这不是小升级,是本地AI推理的里程碑式突破。
中文
























