Sabitlenmiş Tweet
Nizar
4K posts

Nizar
@mandNizar
Sometimes I talk to myself because I need expert advice
Lille, France Katılım Aralık 2015
119 Takip Edilen104 Takipçiler
Nizar retweetledi

Va te faire enculer sale fils de pute
James Martell@James_Martell_
Je pense que j’ai bien choisi L’Airbnb…
Français
Nizar retweetledi
Nizar retweetledi

@ndcr_off @JadisWorried @inesalsa_ oui, pour le coup je parlais dans un contexte orienté objet pur.
un constructeur est un initiateur d’instance; une méthode (d’instance ou de classe) est un “message” envoyé à un receveur (objet), et ce sont clairement deux responsabilités et principes différents
Français

@JadisWorried @mandNizar @inesalsa_ oui pour le constructeur comme tu lentends , que tas dans C++ , Java etc, est ce qua repondu le collegue deja
Français

@JadisWorried @ndcr_off @inesalsa_ - le constr’ est lié à un type, pas une instance
- le constr’ n’est pas invoqué, il est déclenché par allocation
- il ne peut être ni final, ni static ni override ( le super n’est absolument pas du polymorphisme, on délégue juste l’initialisation explicitement à la compilation)
Français
Nizar retweetledi
Nizar retweetledi

Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯
Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend.
Ça s'appelle TurboQuant. Je vous vulgarise tout le paper :
Déjà, le problème de base.
Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache).
Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire.
C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui.
La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3").
C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil.
Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision.
C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image".
Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain.
TurboQuant résout ça en deux étapes.
Étape 1 : PolarQuant.
Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle.
C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact.
L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule.
Étape 2 : QJL (Quantized Johnson-Lindenstrauss).
Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre.
Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points.
QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis.
Les résultats sont assez dingues.
Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits.
Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche.
Et le plus intéressant : ça ne sert pas qu'aux LLMs.
TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...).
Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI.
Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation.
Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.
GIF
Français

@MomoSeck99 @tonye237 Carreras Carvajal Fran Garcia Raùl ascencio ça fait quand même 4 tocard
Français

@jashu348 @javarevisited the result is True here
Java has an internal cache for -128 <= Integers <= 127. even though a and b are two different instances, they still point to the same memory adress as they have the same int value, there is only one object stored in cache for each integer in the interval
English

@alphaonlombard @ezralevant bragging about being "full of F-35s" you don't even build is hilarious. nothing screams sovereign naval power quite like floating gas stations packed with imported jets that Washington can remotely brick the second they get annoyed with you.
English

@ezralevant Britain literally has two of these which are bigger and more technologically advanced (outside of nuclear) that are full of F35s.
English

A bit disorienting to know that the French have a stronger, readier navy than the Brits.
French Embassy UK🇫🇷🇪🇺@FranceintheUK
Heading to the Mediterranean.
English

@integer59 @jeremyrglt « c’est pas des bdd c’est des tableaux »
scoop : une bdd relationnelle c’est littéralement des tables ..
le vrai soucis ici c’est que le format plat (csv) détruit toute l’archi des bdd : clés primaires et étrangères, contraintes d’intégrités, index .. etc etc
Français

@jeremyrglt Un fichier CSV ? C'est pas des bdd que tu as c'est des tableaux. Pfff. En plus je devine qu'il n'y a pas grand chose dedans vu que tu les as transformés en CSV. Un peu du n'importe quoi là...
Français

Jour 20,5 à vibecoder avec Claude Code.
Bonne nouvelle : Excel ne sert plus à rien.
Cette après midi je voulais migrer 11 bases de données complexes, entre croisées, avec des milliers de lignes depuis notre ancien logiciel de gestion vers le nouveau que je concocte.
J'ai commencé par vouloir faciliter la tache à Claude en lui faisant certains croisements et pour adapter la structure à la nouvelle qui est totalement différente (par habitude de l'ancien temps).
Après 15 minutes, n'ayant plus l'habitude de devoir travailler avec une souris et un clavier, j'ai simplement glissé les 11 fichiers .CSV bruts dans mon dossier de projet et demandé à Claude de se débrouiller comme un grand.
A part deux petits soucis, réglés en deux prompts... tout est fonctionnel.
Je suis sidéré.

Français

@Alex66_DK @Trump_Fact_News en plus de prétendre pouvoir déchiffrer des millions de bits compilés, il faut commodément omettre l'existence des protections anti-sabotage (zeroization). Comparer un simple logiciel commercial à l'avionique classifiée d'un chasseur de 4.5G est, pour le moins, audacieux
Français

@mandNizar @Trump_Fact_News La rétro-ingénierie gagne en popularité. Beaucoup de logiciels sont désormais rétro-conçus sans accès au code source, donc pour le Rafall, c’est tout à fait réalisable.
Français

@Alex66_DK @Trump_Fact_News va faire du reverse engineering sur le Rafale, tu me tiendras au courant chef 😆😆
Français

@Trump_Fact_News Pourquoi avoir besoin du code source alors qu’il existe la rétro-ingénierie.
Français
Nizar retweetledi

@krishdotdev an interesting and more tricky exemple would have been 127, because unlike values >= 128 && > -128, a ==b would have been true due to Java’s internal Integer Cache
English

@Revoli_b @AureaLibe encore une fois, théoriquement et sur le papier, ça tient la route. Sur le terrain et sur des gros projets, en tout cas pour l’instant, on en très loin. Tous les CEO (OpenAi/Google/Anthropic) forcent pour faire croire le contraire, faut bien lever des fonds après tout
Français

@mandNizar @AureaLibe L'idée c'est justement de découper pour définir plusieurs contextes biens distincts les uns des autres avec une hiérarchie. Plus de suivis, moins d'hallucinations. Mais plus lourd quand même en terme de prompts IA.
Français

@Revoli_b @AureaLibe il paraît que l’hallucination devient très récurrente quand on délègue une tâche multi step à un LLM (+ contexte + d’hallu)
Pour revenir sur le sujet, je suis même content que l’on ait + de temps pour des tâches plus bcp importantes : architecture, conception, stratégie, conseil
Français

@mandNizar @AureaLibe Avec BMad/Multiagents maintenant c'est possible. Toujours besoin de l'humain, mais beaucoup plus structuré. On découple/isole les tâches (analyse -> plan -> code -> tests -> review) comme on le ferait pour le code.
Français
Nizar retweetledi

La fin de cette interview de Jack Lang restera dans les mémoires. Merci Madame Sonia Mabrouk.
Mabrouk Sonia@SoMabrouk
Suite à ma démission de mon poste à @cnews au vu des récents évènements, j’ai été informée par la direction que je suis « dispensée» du préavis d’1 mois sur cette même antenne. Je remercie du fond du cœur les téléspectateurs fidèles. Et bien sûr je vous dis à demain sur @Europe1
Français














