Koby🇫🇷

40.7K posts

Koby🇫🇷 banner
Koby🇫🇷

Koby🇫🇷

@basemilitaire_

@PSG_inside

Paris Beigetreten Temmuz 2019
438 Folgt141 Follower
Angehefteter Tweet
Koby🇫🇷
Koby🇫🇷@basemilitaire_·
ZXX
1
1
5
0
David@oxythan
David@oxythan@oxythan·
"Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle" Ceux qui bossent en compression de données ne rêvez pas, si ça tient en distance + angle, deux coordonnées cartésiennes auraient suffit :)
Brivael - FR@BrivaelFr

Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.

Français
18
5
259
67.7K
Koby🇫🇷
Koby🇫🇷@basemilitaire_·
@Maazamangue94 Ouais j’capte, en + y’en a qui ont a distance donc t’aurais pu être avec eux
Français
0
0
1
20
PÈRE PATRICK SUR LE CRF
PÈRE PATRICK SUR LE CRF@Maazamangue94·
@basemilitaire_ Mais déjà moi je pensais y’avait qq chose à gratter genre az c tjrs un plus d’être dans les pljs boostés et en plus y’avait mes darons à côté de moi quand j’ai fzir le test donc c’était dur des résister mdr
Français
1
0
0
29
PÈRE PATRICK SUR LE CRF
PÈRE PATRICK SUR LE CRF@Maazamangue94·
J’ai triché sur un test d’anglais au début du semestre mtn je suis dans le groupe des gens boosté alors que j’ai le niveau d’une écrevisse dans cette langue
Français
5
0
11
551
Koby🇫🇷
Koby🇫🇷@basemilitaire_·
@Mezinke Genre y’en a bcp où les gens s’accordent pour dire qu’elles vont bien ensemble, mais si on voyait pas les mêmes couleurs j’pense que y’aurai pas autant consensus
Français
1
0
0
31
Koby🇫🇷
Koby🇫🇷@basemilitaire_·
@Mezinke J’me disais pareil, mais pour les associations de couleurs ça doit pas trop fonctionner
Français
1
0
1
59
Koby🇫🇷 retweetet
SJ🏌🏽‍♂️
SJ🏌🏽‍♂️@itsnotovaaah·
Cherki though Pep would pull out an iPhone 16 and say “WHESHHHH” 💔🥀
English
50
1.9K
25.4K
688.7K
Koby🇫🇷 retweetet
patrick vernou
patrick vernou@vernoupatoche·
Ce verre contient de l'eau claire, mais votre cerveau la voit de couleur magenta. C'est parce que j'ai changé la couleur sur Photoshop
patrick vernou tweet media
Français
48
935
21.5K
271.9K
The Daily Dunk
The Daily Dunk@dailydunkfr·
Bradley Beal purée, qu'est ce qui t'est arrivé ?
The Daily Dunk tweet media
Français
2
4
254
16.1K
liam
liam@clmliam·
a voté
Français
2
0
1
92
Hydra
Hydra@LordBidoof4·
@basemilitaire_ @rzamd92 @OKCThunderFR Alors "tuer" SGA en playmaking c'est vraiment parler sans regarder ses matchs mdr. C'est une de ses qualités les plus sous côtés. Ce que je relève chez Lucas c'est qu'il est bien plus inconstant pendant cette saison. Je trouve que son CV pour le MVP commence à se garnir trop tôt.
Français
1
0
1
40
Oklahoma City Thunder France
Assister à tous ces débats sur le MVP pour que Shai Gilgeous-Alexander soit encore sacré à la fin.
Oklahoma City Thunder France tweet media
Français
10
36
331
12.2K
Spurs Nation France (SNF)
Wemby aura pas le MVP parce qu'il met pas 30 ppg alors qu'il a le meilleur net rtg, va prendre le DPOY, est le meilleur two-way et joue seulement 29 minutes Depuis février il a perdu 1 match seulement aussi 😭 mais bon vu que askip les Spurs font 50 win sans lui (???????)
GIF
Français
44
65
1.1K
37.1K
Koby🇫🇷
Koby🇫🇷@basemilitaire_·
@dieter345 @JdponTransfem Dcp d’après toi faut faire quoi ? Redonner le droit de fumer en intérieur, dans les métros, les salles de cours, les bars etc ? C’est quoi le projet ? Revenir au pic de la cigarette ?
Français
0
0
0
97
dieter34
dieter34@dieter345·
@JdponTransfem ça fait des décennies que les fumeurs sont culpabilisés : ils puent, ils empoisonnent leurs enfants, ils n'ont aucune volonté, ils ne devraient pas avoir la sécu. loies hygiénistes ridicules et liberticides ( interdit de vapoter à moins de 10 m d'une école ). C'est dur de...
Français
3
0
3
4K
Yorens
Yorens@llogo36413303·
@SASpursFr Après jvais dire un truc con mais comment sa se fait on sait déjà les 3 premier mvp de souce sur et que shai va sans doute le gagner alors que les play off etc vont débuter que bientôt ?
Français
2
0
1
2.4K
Deyv2.0
Deyv2.0@deyv_g·
C’est la période que je déteste le plus quand Luka est dans cette forme, il y a trop de débat annexe qui me tende à la mort mdrrrr MVP ou pas je reste sur ma ligne je m’en carre complet je préfère qu’il termine sa carrière avec 3 bagues et 0 MVP
Français
4
2
51
6.8K
Weyki _
Weyki _@Weyki17·
@Nerdrous @SASpursFr D’accord mais est ce qu’ils ont le même impact que wemby sur le terrain
Français
2
0
0
186
Ncnc
Ncnc@KaioAE5·
@MarblePreda @WatashigaEren @Barbz_lb n'importe quel mec un tant soit peu intelligent peut se poser des questions, peut avoir des doutes sur ses performances en dépit de toutes remarques. Mais bon apparemment c'est trop demander pour certains gars ici de réfléchir sur ce qui se passe en dehors de leurs intérêts
Français
1
0
2
191