Mathieu Lecarme

6.1K posts

Mathieu Lecarme banner
Mathieu Lecarme

Mathieu Lecarme

@athoune

Who watch the technologies of the web?

almost in Paris Katılım Mayıs 2007
339 Takip Edilen280 Takipçiler
Mathieu Lecarme retweetledi
Brivael - FR
Brivael - FR@BrivaelFr·
Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.
GIF
Français
64
258
1.3K
144.3K
Mathieu Lecarme retweetledi
Learn Something
Learn Something@cooltechtipz·
When wire management becomes an art form. 🔌😄
English
106
949
8K
392.7K
Mathieu Lecarme retweetledi
Vali Neagu
Vali Neagu@AmbsdOP·
YES! Someone reverse-engineered Apple's Neural Engine and trained a neural network on it. Apple never allowed this. ANE is inference-only. No public API, no docs. They cracked it open anyway. Why it matters: • M4 ANE = 6.6 TFLOPS/W vs 0.08 for an A100 (80× more efficient) • "38 TOPS" is a lie - real throughput is 19 TFLOPS FP16 • Your Mac mini has this chip sitting mostly idle Translation: local AI inference that's faster AND uses almost no power. Still early research but the door is now open. → github.com/maderix/ANE #AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES
Vali Neagu tweet media
English
161
742
7.1K
549.2K
Mathieu Lecarme retweetledi
FFmpeg
FFmpeg@FFmpeg·
This project is parsing JSON extremely efficiently using the same processor instructions (SIMD) we use to optimise video codecs. It's an extremely innovative and creative approach to parsing text files.
Daniel Lemire@lemire

We just released version 4.3.0 of simdjson, the fast JSON library (C++). New: - Thanks to @CamelCdr, we now have an optimized kernel for processors RISC-V Vector Extension (RVV). The simdjson library might the first ever to process JSON with RVV. - Thanks to @GeimanThiesen, we have much faster serialization (production of JSON) performance in some cases. He added new SIMD-based functions that just blew our prior results. We also got contributions by Arthur Chan from Adalogics, and Eve Silfanus from the Microsoft Visual C++ team. github.com/simdjson/simdj…

English
13
54
1.4K
76.2K
Mathieu Lecarme retweetledi
koro
koro@justekoro·
je testais le service messagerie.numerique.gouv.fr, je vois que la création d'alias ne marche pas, et je trouve ça dans les logs merci pour tout les devs
koro tweet mediakoro tweet media
Français
21
174
2.8K
139.7K
Mathieu Lecarme retweetledi
Mitchell Hashimoto
Mitchell Hashimoto@mitchellh·
AI eliminated the natural barrier to entry that let OSS projects trust by default. People told me to do something rather than just complain. So I did. Introducing Vouch: explicit trust management for open source. Trusted people vouch for others. github.com/mitchellh/vouch The idea is simple: Unvouched users can't contribute to your projects. Very bad users can be explicitly "denounced", effectively blocked. Users are vouched or denounced by contributors via GitHub issue or discussion comments or via the CLI. Integration into GitHub is as simple as adopting the published GitHub actions. Done. Additionally, the system itself is generic to forges and not tied to GitHub in any way. Who and how someone is vouched or denounced is up to the project. I'm not the value police for the world. Decide for yourself what works for your project and your community. All of the data is stored in a single flat text file in your own repository that can be easily parsed by standard POSIX tools or mainstream languages with zero dependencies. My hope is that eventually projects can form a web of trust so that projects with shared values can share their vouch lists with each other (automatically) so vouching or denouncing a person in one project has ripple effects through to other projects. The idea is based on the already successful system used by @badlogicgames in Pi. Thank you Mario. Ghostty will be integrating this imminently.
English
223
360
4K
590.9K
Mathieu Lecarme
Mathieu Lecarme@athoune·
* Je méprisai l'architecture des anciennes versions, mais le produit est massivement utilisé, capable de gérer des instances énormes. Je vais donc moins mépriser. * Beau travail pour le Cloud souverain. 4/4
Français
0
0
0
14
Mathieu Lecarme
Mathieu Lecarme@athoune·
* Quand je vois un gros gain en performance, je pense d'abord que la version précédente était lamentable, ensuite je félicite * Curieux de voir comment le bousin taillé pour le gros cluster va être déployable et administrable sur une petite instance. 3/4
Français
1
0
0
11
Mathieu Lecarme
Mathieu Lecarme@athoune·
Nextcloud propose une chouette release orientée performance : nextcloud.com/blog/a-new-dat… * Beaucoup d'optimisations cibles les GROSSES instances avec des millions d'utilisateurs * Ils ont mixé PHP, Go et Rust ce qui va bien compliquer la maintenance 1/4
Français
1
0
0
27
Mathieu Lecarme retweetledi
Richard D. Bartlett
Richard D. Bartlett@RichDecibels·
my friend works at the Barcelona Supercomputing Center in a deconsecrated church and it has the absolute peak European aesthetic
Richard D. Bartlett tweet media
English
267
1.4K
20.4K
1.2M
Mathieu Lecarme retweetledi
CrowINT
CrowINT@crow_int·
France Identité & preuve de majorité : peut-on croire l’État sur parole ? Spoiler : NON. 🚩 On nous vend le "double anonymat" comme la solution miracle. La presse tech (cc @Frandroid) applaudit sans recul en parlant de "solution propre". J’ai creusé la tech et les certifs. Résultat : c’est une boîte noire validée sans aucun esprit critique. 🧵 1️⃣ Le mirage de l’Open Source Il faut arrêter de confondre "documentation publique" et "code ouvert". À date, le code critique du backend (le SGIN, celui qui tourne sur les serveurs de l'État et génère la preuve) n'est pas public. Sur GitHub, on trouve des morceaux de l'appli mobile ou des SDK, pas le moteur qui tourne réellement en prod. Sans Reproducible Builds et sans accès au code serveur, impossible de vérifier l'absence de télémétrie. Trust needs transparency. There is none. 2️⃣ Des auditeurs... juges et parties ? On nous présente l’ANSSI et la CNIL comme des garanties absolues. Soyons sérieux deux minutes : ▪️ L’ANSSI : Les rapports CSPN-2023/21 et 22 sont explicites : ils portent sur l'appli mobile mais excluent le Backend (SGIN) du périmètre. Pire, la décision de qualification de 2025 (2025_792_np) s'appuie sur un rapport d'évaluation spécifique au serveur (RTC-Backend France Identité-DR-1.00) qui est non public. On demande aux citoyens d'auditer un mur de briques pendant que l'État se délivre ses propres visas en coulisses. ▪️ La CNIL : Sa délibération 2024-067 valide une architecture "sur papier", pas le code qui tourne sur les serveurs à l'instant T. 3️⃣ Le problème des logs (méta-données) L'article affirme : "L’État ne sait pas ce que vous visitez". Faux. L’État déclare ne pas le savoir. Nuance vitale. Techniquement, si le serveur conserve un simple timestamp, l’anonymat saute par corrélation : 🕒 Log État : Token généré pour User X à 22h42:12 🕒 Log site : Connexion avec Token à 22h42:12 👉 Match. L'identité est levée. 💥 La sécurité, ça se prouve, ça ne se déclare pas. 4️⃣ Le journalisme n'est pas un SAV Voir des articles titrer "Une solution propre" en recopiant le communiqué de presse, c’est gênant pour la déontologie. Un journaliste tech devrait exiger : le code source du backend SGIN, un audit sur l'effacement des logs en RAM et des garanties contre la corrélation temporelle. La presse doit exposer les défaillances pour forcer l’État à améliorer sa copie. En résumé : l’archi est peut-être robuste sur le papier, mais sans transparence totale, c'est un acte de foi. En sécu, c'est Zero Trust. Ici, on nous demande du Blind Trust. Posez les bonnes questions. C'est votre job. Alors @Frandroid, on corrige l'article ? Les sources en second tweet. ⬇️
Frandroid@Frandroid

Prouver sa majorité sans révéler son identité ? C'est le pari de France Identité avec le "double anonymat". L'État ne sait pas ce que vous visitez, le site ne sait pas qui vous êtes

Français
69
661
1.5K
83.6K
Mathieu Lecarme retweetledi
Daily Dose of Data Science
Daily Dose of Data Science@DailyDoseOfDS_·
Finally, Python 3.14 lets you disable GIL! It's a big deal because earlier, even if you wrote multi-threaded code, Python could only run one thread at a time, giving no performance benefit. But now, it can run your multi-threaded code in parallel. And uv fully supports it!
English
63
211
2.8K
262.9K
Mathieu Lecarme retweetledi
LaurieWired
LaurieWired@lauriewired·
today’s one-sentence horror: sudo has been largely maintained by a single person for ~30+ years
LaurieWired tweet mediaLaurieWired tweet media
English
231
1.2K
23.1K
1.1M
Mathieu Lecarme retweetledi
Takashi Kitao
Takashi Kitao@kitao·
Wow! Thanks to everyone, Pyxel has become the world's number one project in Github's daily rankings! In addition I am also ranked first in the developer rankings! Thank you very much. #gamedev #python Pyxel, a retro game development environment in Python github.com/kitao/pyxel
Takashi Kitao tweet mediaTakashi Kitao tweet media
English
9
38
162
0
Mathieu Lecarme retweetledi
FFmpeg
FFmpeg@FFmpeg·
The FFmpeg community is excited to announce that Germany's Sovereign Tech Fund has become its first governmental sponsor. Their support will help sustain the maintainance of the FFmpeg project sovereigntechfund.de/tech/ffmpeg #stf24" target="_blank" rel="nofollow noopener">ffmpeg.org/index.html#stf
English
7
65
668
33.7K
Mathieu Lecarme
Mathieu Lecarme@athoune·
@daimoc42 OK, pour BBB, la v3 est un réel progrès. La doc parle de béta pour Livekit. Le travail apporté à l'UI/UX est appréciable. Je tique sur le java, mais c'est un avis perso. Je vais RTFM le webrtc-recorder, ça a une bonne tête.
Français
0
0
0
44
dfetis
dfetis@daimoc42·
@athoune BigBlueButton est aussi passé sur livekit côté gestion des médias sur ses dernières versions. Pour la partie hébergement, Jitsi s'installe en une seul ligne de commande apt. C'est juste un peu plus complexe à faire rentrer dans un k8s.
Français
2
0
0
34
Mathieu Lecarme
Mathieu Lecarme@athoune·
Ah tiens, le Visio fièrement annoncé par le gouvernement semble basé sur livekit, gage de qualité, avec une UI est élégante. BigBlueButton & Jitsi ont une archi vieillissante et sont une tannée à héberger ou même personnaliser. Galene reste fun. lasuite.numerique.gouv.fr/produits/visio
Français
1
0
0
84