Val

2.7K posts

Val

@vbernard06

Tech, Sciences & Seo Enthusiast

Katılım Mayıs 2009

1.7K Takip Edilen486 Takipçiler

Val@vbernard06·11h

@BrivaelFr @DokPepper Merci pour l’explication 👌

Français

Brivael - FR@BrivaelFr·17h

Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.

GIF

Français

206

984

62.4K

Val@vbernard06·1d

@alcons0 @ZalidanTV Exactement. Et s’ils ont fait ça c’est que c’est un vrai sujet. Google fait la même chose en mettant plus de poids aux interactions des gens connectés à leur compte Google et qui ont de l’ancienneté…

Français

Alconso 🧙🏻‍♂️@alcons0·2d

@ZalidanTV @vbernard06 comment PH est censé faire la différence entre un nouveau compte créé par un humain vs bot, qui upvote le même jour?

Français

Arthur@ZalidanTV·2d

350 personnes ont voté pour Wisewand sur Product Hunt ce matin. 60 votes comptabilisés. On devrait être 1er. On est 12ème. Voici ce qui s'est passé :

Français

3.9K

Val@vbernard06·1d

@ZalidanTV Je comprends ton point de vue mais tu ne vois que ton propre cas et pas la majorité des lancements par bots. Tu imagines bien que les mecs ont réfléchis, ne sont probablement pas con et on mis en place le moyen qui est le plus efficace pour protéger la qualité de leur service

Français

Arthur@ZalidanTV·2d

@vbernard06 la preuve que c'est de la merde, puisqu'on a des vrais votes, des vrais feedback et que notre lancement est mort dans l'oeuf.

Français

353

Val@vbernard06·2d

@effi_10 Nous on a fait 5+ tentures pour déposer les comptes de société (pour des motifs futiles : il manque la majuscule dans le nom, etc…)… on a fini par y aller en physique et ça a mis 2’

Français

163

Cédric G. / effi10@effi_10·2d

Je vais péter une pile. REFUS du Tribunal de commerce de débloquer ma situation parce que je n'ai (je cite) "pas fourni de justificatif de l'INPI pour ma requête" : L'INPI NE FOURNIT AUCUN PUTAIN DE JUSTIFICATIF AUTRE QUE CE QUE J'AI FOURNI !!!!!! 5 MOIS QUE JE ME BATS !

Français

Val@vbernard06·3d

@dsampaolo @PascalDubruille Oui c’est le problème des avocats. Eux, ils gagnent à chaque fois, tu ne peux quasiment pas contrôler le temps passé et plus c’est long plus ils gagnent…

Français

Didier Sampaolo@dsampaolo·4d

@PascalDubruille J'en arrive à forcer l'avocat à me donner par écrit des preuves de son travail, ça sent le sapin.

Français

168

Didier Sampaolo@dsampaolo·4d

Ça fait 18 mois que j'ai payé une provision pour expert désigné par un juge (presque 2 ans d'attente pour avoir un nom) ; l'expert n'est jamais venu (il devait le faire sous 2 mois) et mon avocat n'en branle pas une. Il est l'heure de sortir le bazooka. J'en ai ras le cul.

Français

3.5K

Val@vbernard06·5d

@dsampaolo 😂

QME

Didier Sampaolo@dsampaolo·5d

Si c'est pour bosser sur le "Metaverse", en effet, un vibecode offshore suffira amplement.

Silicon Carne@siliconcarnesf

Meta annonce 16 000 licenciements. En interne, on parle plutôt de 22 000. Depuis 8 mois, les équipes documentent tout : décisions, debug, archi… Officiellement pour “mieux partager la connaissance”. En réalité, ces données ont servi à entraîner des agents IA internes. Aujourd’hui, ces systèmes gèrent déjà ~70% des modifs de code. La consigne côté management est simple : garder les “AI multipliers”… et virer les autres, considérés comme des “legacy dependencies”. Le nouveau modèle ? 1 senior par équipe + IA + offshore sous Cursor à 28k$/an vs 240k$ dans la Bay Area. Le calcul est vite fait. Les équipes les plus “AI-first” livrent 3x plus vite avec 60% de personnes en moins visiblement. Le plus ironique dans l’histoire ? Ceux qui sont virés en premier sont souvent ceux qui ont construit ces outils. Deux ans à automatiser leur propre job. Le futur du travail est brutal... On reviendra sur ces licenciements semaine prochaine dans Silicon Carne.

Français

1.3K

Val@vbernard06·6d

@SirAfuera @Nico_b35 Bravo nos champions 👏👏

Português

Sir 𝕏@SirAfuera·6d

🔴💸 ALERTE : La taxe sur les petits colis est un succès, des entrepôts sont vides et des patrons d'entreprises dépités car la filière logistique française a vu, en quelques jours, son activité s'effondrer. (France Info)

Français

350

8.6K

694.9K

Val@vbernard06·16 Mar

@davidlisnard @maximeguay06 En route pour la suite 🚀

Français

David Lisnard@davidlisnard·16 Mar

MERCI pour ce score exceptionnel - le meilleur pour toutes les villes françaises de + de 30 000 habitants ! - qui ne me confère que des DEVOIRS. Dans une ville aussi importante et contrastée que Cannes (taux de pauvreté de sept points supérieur à la moyenne nationale, revenu median inférieur à toutes les moyennes locales comme française, etc, mais aussi ville internationale et avec des quartiers huppés comme pauvres), face cette fois-ci à une liste d’union de la gauche et au RN, ce résultat est la preuve qu’une proposition politique solide sur ses principes, porteuse de concret mais aussi d’idées et de personnalités nouvelles, venant du terrain, peut l’emporter. Portons la voix d’une droite INDÉPENDANTE et GAGNANTE POUR LA FRANCE.

Français

321

963

7.2K

184.8K

Val@vbernard06·15 Mar

@dr_l_alexandre Clair 😅

English

Docteur Laurent Alexandre@dr_l_alexandre·15 Mar

Il est inadmissible qu’il n’y ait que des vieillards au Conseil Constitutionnel Il faudrait quelques jeunes Des gens qui comprennent l’IA, la biologie, la robotique, les neurosciences. Qui ont déjà touché ChatGPT, Claude, Grok et Gemini. Ces gens vivent dans le passé !

Français

315

287

1.4K

46.8K

Val@vbernard06·12 Mar

@Benoit_Gaillat Ave le fameux cv.pdf 😅

Français

106

Benoit_Gaillat@Benoit_Gaillat·12 Mar

Tips : Je pense que si tu cherches un stage de cette façon, y'a peu de chance de le trouver

Français

1.2K

Val@vbernard06·11 Mar

@barryfabien @SMX_Paris LinkedIn fait aussi de gros efforts sur ces sujets ces depuis quelques mois 😅

Français

776

Fabien@barryfabien·11 Mar

Si ce qu'on a vu se confirme Google va faire mal. En espérant que ce ne soit pas pour ce soir, besoin de dormir après le @SMX_Paris🤞

Français

5.5K

Val@vbernard06·10 Mar

@knafo_sarah 😅

QME

Sarah Knafo@knafo_sarah·10 Mar

De quoi vous parlez, Caliméro ? Vous avez joué au Premier ministre imaginaire sur toutes les antennes de France et de Navarre pendant 3 mois ! 😂

Lucie Castets@CastetsLucie

Dans cette campagne municipale, sommes-nous à armes égales ? Évidemment que non. TF1 lance la campagne de Mme Knafo au 20h. Causeur lui offre une campagne d'affichage la semaine de l'élection. Les algorithmes de X et TikTok se mettent gratuitement à son service. 1/3

Français

562

3.5K

19.7K

780.8K

Val@vbernard06·10 Mar

@dsampaolo Très propre 👌

Français

Didier Sampaolo@dsampaolo·10 Mar

Thread à dérouler :) (oui, je suis assez fier de ce qu'on a pondu en interne)

Didier Sampaolo@dsampaolo

Pour structurer son activité de Knowledge Manager, @kakocreation a conçu un Agent IA qui lui sert de coach/professeur IA interactif, mis en musique par @DoudouMoii et votre serviteur. (il n'est pas à vendre, mais on peut en discuter) En savoir plus : lvlup.fr/blog/agent-ia-…

Français

643

Val@vbernard06·5 Mar

@dr_l_alexandre Bonjour @dr_l_alexandre Pour quelle raison avez-vous fait ce choix ? Quels usages ?

Français

182

Docteur Laurent Alexandre@dr_l_alexandre·5 Mar

Depuis quelques jours, je suis parti chez Claude et j’ai quitté ChatGPT. Et, j’ai un peu l’impression de tromper ChatGPT. Est-ce un adultère numérique ?

Français

146

236

33.3K

Val@vbernard06·28 Şub

@ZeClint Et tous les emplois pour le construire ! On devrait être ravi qu’il dépense son argent

Français

Ze Clint@ZeClint·27 Şub

90m€ de TVA à l’achat . Entretien annuel : 10m€ de TVA 350 000 de masse salariale par mois … qui , si la loi française n’était pas debile pourrait faire rentrer 100 000 de charges mensuelles sans problème . Faites vos calculs Après quand je vois l’ambiance je comprends qu’il veuille un moyen de s’évader

L'Humanité@humanite_fr

Bernard Arnault, qui redoutait la taxe Zucman, a commandé un nouveau yacht de 143 mètres pour 550 millions d’euros Le billet de Maurice Ulrich ➡️ l.humanite.fr/SxR

Français

250

34.5K

Val@vbernard06·27 Şub

@dsampaolo @marseille Ah merci 🙏 Ça me parait une bonne idée piste 👌

Français

Didier Sampaolo@dsampaolo·27 Şub

@vbernard06 @marseille Je crois que c'est pour prouver que je suis en vie (sinon y'aurait mention de mon décès dessus...).

Français

Didier Sampaolo@dsampaolo·27 Şub

.@marseille Loin de moi l'idée d'être lourd, mais mon acte de naissance, il vous faut combien de temps pour me l'envoyer ? J'en ai un peu besoin urgemment et ça fait 8 jours que j'attends...

Français

643

Val@vbernard06·23 Şub

@seo_mintavocado @sarddou J’ai commencé à tester en 2024… Je connais bien. Je parle de Heygen notamment

Français

Laurent | Mintavocado@seo_mintavocado·23 Şub

@vbernard06 @sarddou Fait un podcast avec NotebookLM et comprend que le game est terminé

Français

Jean-Michel Sarddou@sarddou·23 Şub

Les voix IA pour faire des audiobooks, ca va juste tuer le secteur. Ca marche incroyablement bien et j'ai du mal à distinguer ce qui est lu par ce qui est généré.

Français

10.1K

Keşfet

@BrivaelFr @DokPepper @alcons0 @ZalidanTV @effi_10 @dsampaolo @PascalDubruille @SirAfuera