Val

2.7K posts

Val

Val

@vbernard06

Tech, Sciences & Seo Enthusiast

Katılım Mayıs 2009
1.7K Takip Edilen486 Takipçiler
Brivael - FR
Brivael - FR@BrivaelFr·
Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.
GIF
Français
48
206
984
62.4K
Val
Val@vbernard06·
@alcons0 @ZalidanTV Exactement. Et s’ils ont fait ça c’est que c’est un vrai sujet. Google fait la même chose en mettant plus de poids aux interactions des gens connectés à leur compte Google et qui ont de l’ancienneté…
Français
0
0
0
22
Arthur
Arthur@ZalidanTV·
350 personnes ont voté pour Wisewand sur Product Hunt ce matin. 60 votes comptabilisés. On devrait être 1er. On est 12ème. Voici ce qui s'est passé :
Arthur tweet media
Français
7
1
12
3.9K
Val
Val@vbernard06·
@ZalidanTV Je comprends ton point de vue mais tu ne vois que ton propre cas et pas la majorité des lancements par bots. Tu imagines bien que les mecs ont réfléchis, ne sont probablement pas con et on mis en place le moyen qui est le plus efficace pour protéger la qualité de leur service
Français
0
0
0
10
Arthur
Arthur@ZalidanTV·
@vbernard06 la preuve que c'est de la merde, puisqu'on a des vrais votes, des vrais feedback et que notre lancement est mort dans l'oeuf.
Français
2
0
1
353
Val
Val@vbernard06·
@effi_10 Nous on a fait 5+ tentures pour déposer les comptes de société (pour des motifs futiles : il manque la majuscule dans le nom, etc…)… on a fini par y aller en physique et ça a mis 2’
Français
1
0
0
163
Cédric G. / effi10
Je vais péter une pile. REFUS du Tribunal de commerce de débloquer ma situation parce que je n'ai (je cite) "pas fourni de justificatif de l'INPI pour ma requête" : L'INPI NE FOURNIT AUCUN PUTAIN DE JUSTIFICATIF AUTRE QUE CE QUE J'AI FOURNI !!!!!! 5 MOIS QUE JE ME BATS !
Français
3
0
15
4K
Val
Val@vbernard06·
@dsampaolo @PascalDubruille Oui c’est le problème des avocats. Eux, ils gagnent à chaque fois, tu ne peux quasiment pas contrôler le temps passé et plus c’est long plus ils gagnent…
Français
0
0
1
21
Didier Sampaolo
Didier Sampaolo@dsampaolo·
@PascalDubruille J'en arrive à forcer l'avocat à me donner par écrit des preuves de son travail, ça sent le sapin.
Français
2
0
1
168
Didier Sampaolo
Didier Sampaolo@dsampaolo·
Ça fait 18 mois que j'ai payé une provision pour expert désigné par un juge (presque 2 ans d'attente pour avoir un nom) ; l'expert n'est jamais venu (il devait le faire sous 2 mois) et mon avocat n'en branle pas une. Il est l'heure de sortir le bazooka. J'en ai ras le cul.
Français
5
0
11
3.5K
Sir 𝕏
Sir 𝕏@SirAfuera·
🔴💸 ALERTE : La taxe sur les petits colis est un succès, des entrepôts sont vides et des patrons d'entreprises dépités car la filière logistique française a vu, en quelques jours, son activité s'effondrer. (France Info)
Français
350
2K
8.6K
694.9K
David Lisnard
David Lisnard@davidlisnard·
MERCI pour ce score exceptionnel - le meilleur pour toutes les villes françaises de + de 30 000 habitants ! - qui ne me confère que des DEVOIRS. Dans une ville aussi importante et contrastée que Cannes (taux de pauvreté de sept points supérieur à la moyenne nationale, revenu median inférieur à toutes les moyennes locales comme française, etc, mais aussi ville internationale et avec des quartiers huppés comme pauvres), face cette fois-ci à une liste d’union de la gauche et au RN, ce résultat est la preuve qu’une proposition politique solide sur ses principes, porteuse de concret mais aussi d’idées et de personnalités nouvelles, venant du terrain, peut l’emporter. Portons la voix d’une droite INDÉPENDANTE et GAGNANTE POUR LA FRANCE.
David Lisnard tweet media
Français
321
963
7.2K
184.8K
Docteur Laurent Alexandre
Docteur Laurent Alexandre@dr_l_alexandre·
Il est inadmissible qu’il n’y ait que des vieillards au Conseil Constitutionnel Il faudrait quelques jeunes Des gens qui comprennent l’IA, la biologie, la robotique, les neurosciences. Qui ont déjà touché ChatGPT, Claude, Grok et Gemini. Ces gens vivent dans le passé !
Docteur Laurent Alexandre tweet media
Français
315
287
1.4K
46.8K
Benoit_Gaillat
Benoit_Gaillat@Benoit_Gaillat·
Tips : Je pense que si tu cherches un stage de cette façon, y'a peu de chance de le trouver
Benoit_Gaillat tweet media
Français
3
0
4
1.2K
Val
Val@vbernard06·
@barryfabien @SMX_Paris LinkedIn fait aussi de gros efforts sur ces sujets ces depuis quelques mois 😅
Français
0
0
0
776
Fabien
Fabien@barryfabien·
Si ce qu'on a vu se confirme Google va faire mal. En espérant que ce ne soit pas pour ce soir, besoin de dormir après le @SMX_Paris🤞
Français
3
0
10
5.5K
Val
Val@vbernard06·
@dsampaolo Très propre 👌
Français
1
0
0
33
Docteur Laurent Alexandre
Docteur Laurent Alexandre@dr_l_alexandre·
Depuis quelques jours, je suis parti chez Claude et j’ai quitté ChatGPT. Et, j’ai un peu l’impression de tromper ChatGPT. Est-ce un adultère numérique ?
Français
146
11
236
33.3K
Val
Val@vbernard06·
@ZeClint Et tous les emplois pour le construire ! On devrait être ravi qu’il dépense son argent
Français
0
0
0
42
Ze Clint
Ze Clint@ZeClint·
90m€ de TVA à l’achat . Entretien annuel : 10m€ de TVA 350 000 de masse salariale par mois … qui , si la loi française n’était pas debile pourrait faire rentrer 100 000 de charges mensuelles sans problème . Faites vos calculs Après quand je vois l’ambiance je comprends qu’il veuille un moyen de s’évader
L'Humanité@humanite_fr

Bernard Arnault, qui redoutait la taxe Zucman, a commandé un nouveau yacht de 143 mètres pour 550 millions d’euros Le billet de Maurice Ulrich ➡️ l.humanite.fr/SxR

Français
15
38
250
34.5K
Val
Val@vbernard06·
@dsampaolo @marseille Ah merci 🙏 Ça me parait une bonne idée piste 👌
Français
0
0
0
22
Didier Sampaolo
Didier Sampaolo@dsampaolo·
.@marseille Loin de moi l'idée d'être lourd, mais mon acte de naissance, il vous faut combien de temps pour me l'envoyer ? J'en ai un peu besoin urgemment et ça fait 8 jours que j'attends...
Didier Sampaolo tweet media
Français
3
0
1
643
Val
Val@vbernard06·
@seo_mintavocado @sarddou J’ai commencé à tester en 2024… Je connais bien. Je parle de Heygen notamment
Français
1
0
0
17
Jean-Michel Sarddou
Jean-Michel Sarddou@sarddou·
Les voix IA pour faire des audiobooks, ca va juste tuer le secteur. Ca marche incroyablement bien et j'ai du mal à distinguer ce qui est lu par ce qui est généré.
Français
11
0
40
10.1K