
sudo nvidia-smi -pl 300 で450W->300Wにしても66.49tok/secで殆ど変化せず。夏はこれだな…
Naoto Nakai@NuCode
Qwen3.6のMoEモデル(Qwen3.6-35B-A3B Q4_K_M GGUF)も基本的には同じセッティング "Number of layers for which to force MoE layers into CPU" を12に減らしてやるとフルコンテキストで67tok/secぐらい出る(RTX4090)
日本語



