
Dicer.CTO
2.7K posts




Gemma 4 26B MoE (4B active) on a single RTX 4090: - 162 t/s decode - 8,400 t/s prefill - Full 262K native context — 19.5 GB VRAM - Only 10 Elo below the 31B dense Q8_0 on dual 4090+3090: 9,024 t/s prefill at 10K. 2,537 t/s at full 262K — that's a novel in about 100 seconds. Q4_K_M + q8_0 K / turbo3 V using @no_stp_on_snek 's TurboQuant fork (github.com/TheTom/turboqu…). KV quant saves 1.8 GB, costs nothing. 3.7x faster decode than the dense. Single 4090 (262K): llama-server -m gemma-4-26B-A4B-it-UD-Q4_K_M.gguf -c 262144 -np 1 -ctk q8_0 -ctv turbo3 -fa on --fit off --cache-ram 0 -dev CUDA0 Dual GPU (Q8_0, 262K): llama-server -m gemma-4-26B-A4B-it-Q8_0.gguf -c 262144 -np 1 -fa on --fit off --cache-ram 0 llama.cpp b8635 + turboquant fork #Gemma4 #LocalLLM #llama_cpp #TurboQuant #RTX4090 #MoE #AI #OpenSource #GGUF #LocalAI



Hay que arancelar la universidad publica YA



Intelligence density = how much useful intelligence a model delivers per GB. By this measure, 1-bit Bonsai 8B scores 1.06/GB, while the closest nearby full-precision 8B model scores 0.10/GB. This isn’t a small efficiency gain — it’s a new paradigm of intelligence compression: advanced capability in a radically smaller deployment footprint.










AMPLIAMOS | Conmoción en Santa Fe: un alumno entró armado a un colegio de San Cristóbal y mató a un compañero



Es gracioso que el proceso de mayor industrialización que tuvo el país en los últimos 80 años fue cuando el peronismo estuvo proscripto 1955-1973.



Díganme una opinión futbolística que los ponga en este lugar















