lemolatoon
2.7K posts

lemolatoon
@lemolatoon1
bioです。seccamp '22 '23 (Cコンパイラ|OS自作)ゼミ。icon:(@murasame524)
Katılım Ağustos 2021
544 Takip Edilen692 Takipçiler

@rupone16 自分がやってるのがPod内でtailscaledを動かすのではなく、各ノードでtailscaledを動かしてtailnet上でkubelet同士を通信させてるのでちょっと違うissueな気がしますね。
日本語
lemolatoon retweetledi

@cordx56 35B-A3Bの方はおそらくアクティブ3Bだから推論は速くできて、27Bの方はシンプル27Bなので遅いのかなって思ってます、35B-A3Bの方はまだ試してないので今度やってみます。
日本語

@lemolatoon1 今確認したけど、Qwen3.6-35B-A3B:Q4_K_Mで平均48t/sとかだった。割と最近のリリース版llama.cpp。デバイスはDELL OEMのGB10搭載モデル。
日本語

@cordx56 llama.cppのHEADを雑にbuildして4bit量子化でやったら11tok/sとかでした。ローカルLLMそんなにやったことないのでまだもっと速くする方法あるかも?
日本語


