

Firisis
167 posts

@Firisis_
MD (Ophtalmo) 👁️ | Ex-EdTech ('22-'26) ➡️ Building AI Ventures. Vibecoder & Investisseur. Je partage mes convictions (Tech/IA) et l'avancée de mes projets.


















TurboQuant redéfini ce qu'il est possible de faire avec ma config grand publique max avec RTX 5090 (32 Go). ⬇️ ❌ Avant : LLaMA-3 70B en 4-bit = 35 Go. Résultat : Out Of Memory. La carte est en PLS. 💀 ✅ Maintenant (TurboQuant 3-bit) : Le modèle tombe à 26,2 Go. Il rentre enfin. Il te reste 5,8 Go de VRAM libre, mais compressés par 6. Ça te donne virtuellement ~35 Go de contexte. 💡 Bilan : Un monstre de 70B en local sur ton bureau, capable d'avaler toute ta codebase d'un coup sans broncher. C'est magnifique sur leur papier de recherche, j'ai hâte de voir ce que ça va donner en vrai, je vais tester ça 💻


Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI


Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI

OVHcloud annonce acquérir Dragon LLM, concepteur de modèles spécialisés d’IA générative et crée son lab AI pour proposer de nouveaux services à ses clients basés sur les LLM. corporate.ovhcloud.com/sites/default/…