on ne blague plus

3.1K posts

on ne blague plus banner
on ne blague plus

on ne blague plus

@Zhydrvx_

Moi tout qu'est ce que j'sais, c'est que j'cours pas plus vite que les balles. Je hais le Crous.

Lyon, France Katılım Ocak 2023
62 Takip Edilen69 Takipçiler
Fares
Fares@faresrsf·
J’ai dit au gars de tasty crousty mets-moi bien j’ai trop la dalle regardez seulement
Fares tweet media
Français
32
44
5K
443.4K
𝒀𝑺𝑫🇲🇦
@Zhydrvx_ @faresrsf J’ai testé wallah il a oublié les serviettes la cuillère et supplément Y’avais pas bcp de poulet par rapport à d’hab
Français
1
0
0
22
Sanji🇫🇷
Sanji🇫🇷@tgy_Ab·
@Zhydrvx_ @fckNzsOM Si j’ai pas la teck personne la jv leak sur tout mon snap et jv même contacter carrefour
GIF
Français
2
0
0
626
ajlux92
ajlux92@ajlux92i·
@cestnako Il faut une config de fou pour le jeu nn ?
Français
1
0
0
708
𝒀𝑺𝑫🇲🇦
𝒀𝑺𝑫🇲🇦@chlh_9·
@faresrsf Faut se faire plaisir mais en mode tu lui a écris sur uber eat blinde moi et il t’a blindé ?
Français
1
0
0
773
on ne blague plus
on ne blague plus@Zhydrvx_·
@Nelhf pourquoi vous voulez une poubelle mdrr un sac poubelle suffit
Français
0
0
0
200
on ne blague plus
on ne blague plus@Zhydrvx_·
@drich42dev @oxythan oui dans leur rapport ils expliquent qu'en gros comme c des grandes dimensions ils les supposent constantes dcp ils virent la norme
Français
0
0
1
39
Ðrich 🇫🇷
Ðrich 🇫🇷@drich42dev·
@oxythan hmm pratiquement tout est normalisé dans ce genre d'algo, donc la valeur qui saute c'est plutôt la distance
Français
1
0
2
1.1K
David@oxythan
David@oxythan@oxythan·
"Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle" Ceux qui bossent en compression de données ne rêvez pas, si ça tient en distance + angle, deux coordonnées cartésiennes auraient suffit :)
Brivael - FR@brivael

Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.

Français
18
6
269
69.7K
on ne blague plus retweetledi
Arkunir
Arkunir@Arkunir·
Juste pour rappeler que le RN veut interdire la diffusion d’images de la police sur les réseaux sociaux et soutien la présomption de légitime défense pour ces fameux gardien de la paix mddrrrrr continuez à faire les apolitiques l’avenir s’annonce radieux
2/2@Indispo86

On entend clairement le jeune dire : « On va manger là », car il y a un fast-food dans la rue marchande. Mais au lieu de cela, tout ce qu’il a reçu, ce sont des coups. Jusqu’à quand cela va-t-il continuer ? #NOISIEL #BAVUREPOLICIERE

Français
448
24.5K
74.7K
1.9M
Satyan
Satyan@stanerbtw·
@HunterKhh @y4aacine non clairement pas tous, même des AAA, Wukong par exemple et d'autres mais flm de les citer, en revanche pour RE9 ouais les autres opus l'ont déjà été juste ça prend plus de temps que d'autres (l'année dernière E33 le jour même il était dispo)
Français
4
0
1
1.4K