fablesudiste

1.7K posts

fablesudiste

@fablesudiste

Languedoc Rousillon - France Katılım Ocak 2010

673 Takip Edilen92 Takipçiler

fablesudiste retweetledi

KORBEN@korben_rss·30 Mar

msgvault - Libérez vos emails de la prison Gmail korben.info/msgvault-archi…

Français

1.4K

fablesudiste retweetledi

George Pu@TheGeorgePu·28 Mar

Mistral just open-sourced a text-to-speech model that beats ElevenLabs. 3 GB of RAM. Runs locally. Free. The thing people were paying per-word for last year runs on your laptop now.

English

134

844

8.6K

430.1K

fablesudiste retweetledi

Nicolas@Salemioche·27 Mar

je viens de voler l'idée du Makefile de @ponceto91 pour regrouper mes cmds de déploiements / sauvegardes / ... pour mes dev sous WSL 😎 ( je pousse juste en prod sans passer par Git... chacun son style 😅 )

Français

718

fablesudiste retweetledi

Brivael - FR@BrivaelFr·25 Mar

Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.

GIF

Français

257

1.3K

144.8K

fablesudiste retweetledi

Olivier Poncet 🦝@ponceto91·26 Mar

Retyc est une plateforme de transfert sécurisée de fichiers avec chiffrement post-quantique de bout en bout, garantie 100% solution souveraine et européenne. Elle met l'accent sur la confidentialité avec une architecture zero-knowledge ... Allez-y ! ⬇️ retyc.com/fr/

Français

4.4K

fablesudiste retweetledi

F.O.L.A@folaoftech·25 Mar

ChatGPT has anger issues 😂

English

233

3.8K

51.6K

1.1M

fablesudiste retweetledi

Stéphane Bortzmeyer@bortzmeyer·26 Mar

Sur la notion d'« alternative » dans le logiciel (« quelle alternative à Microsoft ? ») grisebouille.net/lalternative/

Français

fablesudiste retweetledi

iMil 🇪🇸🦇@iMilnb·23 Mar

For those of you with low-end GPUs (older 4GB NVidia card), nvidia/NVIDIA-Nemotron-3-Nano-4B-GGUF does a pretty good job at tooling, i.e. for use with smolclaw, @SipeedIO #picoclaw and friends

English

797

fablesudiste retweetledi

Olivier Poncet 🦝@ponceto91·23 Mar

Encore une vidéo banger de @IV2FI ... La qualité de ses productions est toujours aussi incroyable. Allez regarder et vous abonner (c'est un ordre ^^) youtube.com/watch?v=HRa31C…

YouTube

V2F@IV2FI

Je pensais que l'envoi de données dans un câble consistait simplement à moduler la tension en fonction des bits... Sauf qu'il y a plein de problèmes inattendus à résoudre ⬇️

Français

8.4K

fablesudiste retweetledi

BlablaLinux@BlablaLinux·24 Mar

4/4 Projet source sur GitHub : github.com/rackulalives/r… Amusez-vous bien avec vos baies ! #SelfHosting #Docker #Linux #Rackula #BlablaLinux #SysAdmin #Proxmox

Français

274

fablesudiste retweetledi

bearstech@bearstech·23 Mar

Floci : un émulateur AWS local Open Source pensé comme une alternative légère à LocalStack Community 👉 Le projet : github.com/hectorvent/flo… 👉 En savoir plus : hectorvent.dev/floci/

Français

5.4K

fablesudiste retweetledi

Didier Maïsto@DidierMaisto·23 Mar

Le socialisme.

Français

1.5K

4.5K

59.4K

fablesudiste retweetledi

𝓝𝓲𝓭𝓸𝓾𝓲𝓵𝓵𝓮 🐙🐙@_Nidouille_·21 Mar

ZXX

1.8K

fablesudiste retweetledi

SitePoint@sitepointdotcom·16 Mar

Running LLMs locally is becoming mainstream. Developers are doing it for privacy, cost control, and flexibility. Models to watch: ✅ DeepSeek ✅ Llama ✅ Mistral ✅ optimized small models Overview: 🔗 sitepoint.com/best-local-llm…

English

457

fablesudiste retweetledi

𝓝𝓲𝓭𝓸𝓾𝓲𝓵𝓵𝓮 🐙🐙@_Nidouille_·14 Mar

Le nouvel installateur de CahyOS dispose d’un système de prévisualisation de l’espace de travail pour sa version de mars 2026. cachyos.org/blog/2603-marc…

Français

3.2K

fablesudiste retweetledi

Camille Roux@CamilleRoux·11 Mar

Un outil gratuit qui teste depuis le navigateur si votre FAI vous espionne : supercookies, injection d'en-têtes, détournement DNS et interception TLS. ismyispspying.com

Français

303

34.7K

fablesudiste retweetledi

Nicolas Lescop@Limplementeur·12 Mar

Astuce pour économiser vos tokens Claude Code : utilisez github.com/rtk-ai/rtk !

Français

581

fablesudiste retweetledi

iMil 🇪🇸🦇@iMilnb·10 Mar

I have smolClaw/#picoclaw running fully locally with a simple GTX 1650/4G. Secret sauce: llama.cpp/CUDA Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF:Q4_K_M is the biggest that fits @sudoingX recipe gist.github.com/sudoingX/c2fac… 70 tps!!!

English