Matteo Gentili

91 posts

Matteo Gentili

@Matteo_gtli

Katılım Ağustos 2024

112 Takip Edilen12 Takipçiler

Matteo Gentili retweetledi

GDP@bookwormengr·24 Nis

DeepSeek V4 hits it out of the park and addresses HBM shortage: DeepSeek proves why it is such a fundamental research lab. In addition to exceeding Opus 4.6 on Terminal Bench and virtually matching on other performance metrics, the most notable advancement is this statement: "In the 1M-token context setting, DeepSeek-V4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2" To understand significance of this point, consider below diagram that shows memory layout for Prefill and Decode nodes. If you implement Decode with Data and Expert parallelism (DEP16) with 16 GPUs on GB200 or GB300 NVL72 rack with DeepSeek v3.2, you are left with 104GB or 176 GB HBRAM per GPU respectively. Here we are assuming MoE parameters are in NVFP4. The remaining HBRAM per GPU dictates how large batch size you can have for inference, which determines how many concurrent request you can serve. Consider GB300 with 176GB left: 1. For 128K context, you need 4.45 GB HBRam for KV Cache, and you can serve only 36 concurrent requests. 2. For 256K context, you need 8.90 GB HBRam for KV Cache, and you can serve only 18 concurrent requests. 3. For 512K context, you need 17.80 GB HBRam for KV Cache, and you can serve only 9 concurrent requests. 4. For 1M context, you need 35.60 GB HBRam for KV Cache, and you can serve only 4 concurrent requests. You see the point. Now you imagine, you actually required 10 times less KV cache somehow at 1M! It basically enables you to server 10 times more requests with same resources. Recall Decode is memory bound and not compute bound, unlike Prefill. This is probably the most important contribution of DeepSeek V4. @teortaxesTex @jukan05 @zephyr_z9

DeepSeek@deepseek_ai

Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse Attention). 🔹 Peak Efficiency: World-leading long context with drastically reduced compute & memory costs. 🔹 1M Standard: 1M context is now the default across all official DeepSeek services. 4/n

English

241

1.6K

211.1K

Matteo Gentili retweetledi

SilenceÇaPrompt@SilenceCaPrompt·22 Nis

Le niveau d’insolence de Google est stratosphérique. Anthropic pensait nous enfermer avec les limites de taux ridicules de Claude Design, et Google vient littéralement de briser la cage en rendant DESIGN.md open source. C'est tout.

Français

129

1.9K

198K

Matteo Gentili retweetledi

Anthropic@AnthropicAI·22 Nis

Last month, we published our look into what 81,000 people told us they want from AI. In new research, we’ve investigated the economic hopes and worries referenced in their responses. Read more: anthropic.com/research/81k-e…

Anthropic@AnthropicAI

We invited Claude users to share how they use AI, what they dream it could make possible, and what they fear it might do. Nearly 81,000 people responded in one week—the largest qualitative study of its kind. Read more: anthropic.com/features/81k-i…

English

252

229

2.3K

641.6K

Matteo Gentili retweetledi

Epoch AI@EpochAIResearch·22 Nis

80% of US adults who report using Claude in the previous week live in households earning $100,000 or more a year, compared to 37% of Meta AI users. Other major providers cluster in a relatively narrow band, with 56–64% of users in $100,000+ households.

English

237

2.1K

1.5M

Matteo Gentili retweetledi

Christophe Boutry@Ced_haurus·19 Nis

Palantir vient de publier son manifeste. Lisez-le. Pas pour ce qu'il dit sur la tech. Pour ce qu'il dit sur le politique. Sur l'idéologie de Karp et Thiel. Sur la guerre. Sur vous. Quand une entreprise privée se donne pour mission de définir qui doit être surveillé, ciblé, prédit, neutralisé, et qu'elle publie simultanément un texte expliquant pourquoi contester cela serait de la faiblesse civilisationnelle, on n'est plus dans la stratégie d'entreprise. On est dans la privatisation du souverain. Le droit de décider de l'ennemi, qui fut toujours le geste politique fondateur des États, est en train d'être racheté par une entreprise cotée au Nasdaq. Ce manifeste repose sur un seul tour de passe-passe, répété sous vingt formes différentes : rendre l'inévitable ce qui est en réalité un choix. Les armes à IA ? Elles seront construites de toute façon, alors autant que ce soit nous. La surveillance algorithmique ? La réalité géopolitique l'exige. Le réarmement de l'Occident, la hiérarchie des cultures, la disqualification du pluralisme comme naïveté dangereuse ? Simple lucidité face au monde tel qu'il est. C'est le geste idéologique par excellence : ne pas interdire la question, mais la rendre indécente. Ce que Palantir appelle réalisme est en fait une décision philosophique radicale : le conflit est la vérité permanente du monde, la délibération démocratique est une fragilité que l'adversaire exploitera, et une élite technologique privée est mieux placée qu'un peuple pour tirer les conséquences de cette vérité. C'est du schmittisme en hoodie. C'est littéralement la structure de leur pensée. Le danger n'est pas qu'ils soient fous. Le danger est qu'ils soient riches, cohérents, et déjà à l'intérieur des États. Palantir ne frappe pas à la porte des gouvernements pour vendre un outil. Elle arrive avec une cosmologie complète : voici comment fonctionne le monde, voici vos ennemis, voici pourquoi vous ne pouvez pas vous permettre de débattre, et voici notre contrat. Palantir est l'ennemie des peuples et de la démocratie. Ce qu'ils construisent, c'est un pouvoir technocratique que personne n'a élu et que personne ne pourra destituer.

Palantir@PalantirTech

Because we get asked a lot. The Technological Republic, in brief. 1. Silicon Valley owes a moral debt to the country that made its rise possible. The engineering elite of Silicon Valley has an affirmative obligation to participate in the defense of the nation. 2. We must rebel against the tyranny of the apps. Is the iPhone our greatest creative if not crowning achievement as a civilization? The object has changed our lives, but it may also now be limiting and constraining our sense of the possible. 3. Free email is not enough. The decadence of a culture or civilization, and indeed its ruling class, will be forgiven only if that culture is capable of delivering economic growth and security for the public. 4. The limits of soft power, of soaring rhetoric alone, have been exposed. The ability of free and democratic societies to prevail requires something more than moral appeal. It requires hard power, and hard power in this century will be built on software. 5. The question is not whether A.I. weapons will be built; it is who will build them and for what purpose. Our adversaries will not pause to indulge in theatrical debates about the merits of developing technologies with critical military and national security applications. They will proceed. 6. National service should be a universal duty. We should, as a society, seriously consider moving away from an all-volunteer force and only fight the next war if everyone shares in the risk and the cost. 7. If a U.S. Marine asks for a better rifle, we should build it; and the same goes for software. We should as a country be capable of continuing a debate about the appropriateness of military action abroad while remaining unflinching in our commitment to those we have asked to step into harm’s way. 8. Public servants need not be our priests. Any business that compensated its employees in the way that the federal government compensates public servants would struggle to survive. 9. We should show far more grace towards those who have subjected themselves to public life. The eradication of any space for forgiveness—a jettisoning of any tolerance for the complexities and contradictions of the human psyche—may leave us with a cast of characters at the helm we will grow to regret. 10. The psychologization of modern politics is leading us astray. Those who look to the political arena to nourish their soul and sense of self, who rely too heavily on their internal life finding expression in people they may never meet, will be left disappointed. 11. Our society has grown too eager to hasten, and is often gleeful at, the demise of its enemies. The vanquishing of an opponent is a moment to pause, not rejoice. 12. The atomic age is ending. One age of deterrence, the atomic age, is ending, and a new era of deterrence built on A.I. is set to begin. 13. No other country in the history of the world has advanced progressive values more than this one. The United States is far from perfect. But it is easy to forget how much more opportunity exists in this country for those who are not hereditary elites than in any other nation on the planet. 14. American power has made possible an extraordinarily long peace. Too many have forgotten or perhaps take for granted that nearly a century of some version of peace has prevailed in the world without a great power military conflict. At least three generations — billions of people and their children and now grandchildren — have never known a world war. 15. The postwar neutering of Germany and Japan must be undone. The defanging of Germany was an overcorrection for which Europe is now paying a heavy price. A similar and highly theatrical commitment to Japanese pacifism will, if maintained, also threaten to shift the balance of power in Asia. 16. We should applaud those who attempt to build where the market has failed to act. The culture almost snickers at Musk’s interest in grand narrative, as if billionaires ought to simply stay in their lane of enriching themselves . . . . Any curiosity or genuine interest in the value of what he has created is essentially dismissed, or perhaps lurks from beneath a thinly veiled scorn. 17. Silicon Valley must play a role in addressing violent crime. Many politicians across the United States have essentially shrugged when it comes to violent crime, abandoning any serious efforts to address the problem or take on any risk with their constituencies or donors in coming up with solutions and experiments in what should be a desperate bid to save lives. 18. The ruthless exposure of the private lives of public figures drives far too much talent away from government service. The public arena—and the shallow and petty assaults against those who dare to do something other than enrich themselves—has become so unforgiving that the republic is left with a significant roster of ineffectual, empty vessels whose ambition one would forgive if there were any genuine belief structure lurking within. 19. The caution in public life that we unwittingly encourage is corrosive. Those who say nothing wrong often say nothing much at all. 20. The pervasive intolerance of religious belief in certain circles must be resisted. The elite’s intolerance of religious belief is perhaps one of the most telling signs that its political project constitutes a less open intellectual movement than many within it would claim. 21. Some cultures have produced vital advances; others remain dysfunctional and regressive. All cultures are now equal. Criticism and value judgments are forbidden. Yet this new dogma glosses over the fact that certain cultures and indeed subcultures . . . have produced wonders. Others have proven middling, and worse, regressive and harmful. 22. We must resist the shallow temptation of a vacant and hollow pluralism. We, in America and more broadly the West, have for the past half century resisted defining national cultures in the name of inclusivity. But inclusion into what? Excerpts from the #1 New York Times Bestseller The Technological Republic: Hard Power, Soft Belief, and the Future of the West, by Alexander C. Karp & Nicholas W. Zamiska techrepublicbook.com

Français

443

10.3K

25.4K

Matteo Gentili@Matteo_gtli·10 Nis

@iamsupersocks Très intéressant ! Je te conseille de jeter un œil à ce post qui je trouve complète bien le tiens surtout sur le fait qu’ils ont maintenant Wang qui était le master of labelling : x.com/aakashgupta/st…

Aakash Gupta@aakashgupta

Zuckerberg paid $14.3 billion for a 28-year-old who had never trained a frontier model. Nine months later, that bet just shipped. The benchmark table tells you exactly what kind of lab Wang built. Muse Spark leads or ties Opus 4.6 and GPT 5.4 on multimodal perception, health queries, and visual reasoning. MedXpertQA, SimpleVQA, ScreenSpot Pro, CharXiv. These are all data-quality-sensitive benchmarks where training set curation determines the ceiling. Where it gets destroyed: ARC AGI 2 (42.5 vs 76.5 Gemini), Terminal-Bench (59.0 vs 75.1 GPT 5.4), GDPval office tasks (1444 vs 1672 GPT 5.4). Coding and abstract reasoning. The exact categories where architecture innovation and RL scaling matter more than data. This is a data labeling CEO's model. The fingerprints are all over the results. Wang spent seven years learning which benchmarks respond to better data and which ones require something else entirely. Muse Spark maxed out the first category and exposed the gap in the second. The $14.3B question was always whether the guy who built the best data pipeline in AI could build the best model. The answer so far: he built the best model at the things data pipelines solve, and a mediocre one at everything else. The move nobody's pricing: Meta said larger models are already in development, private API today, open-source future versions. Wang called this "step one." If the next model closes the coding and reasoning gap, Meta goes from also-ran to three-horse race. If it doesn't, they spent $14.3 billion to build a very good medical chatbot for 3 billion users. Both outcomes are interesting. Only one justifies the stock moving 9%.

Français

Supersocks@iamsupersocks·9 Nis

Meta lance Muse Spark, 1er modèle de MSL dirigé par Alexandr Wang. Closed-source. Pas open. Rappelons que Meta a construit Llama, le modèle open-source qui dominait le marché en 2024. Le champion de l'open joue maintenant fermé. Et c'est pas que Meta : Alibaba et Xiaomi reculent aussi sur l'open-weights. Le mouvement est global. Meta joue désormais fermé. Et c'est pas anodin ça redessine toute la carte de la course aux modèles frontier. Muse Spark n'est pas encore frontier. Mais Meta a une carte que personne d'autre n'a : 3 milliards d'utilisateurs quotidiens. Le modèle est branché directement sur WhatsApp, Instagram, Facebook. -> La distribution comme arme de rattrapage massif. Côté technique : > un "contemplating mode" qui orchestre plusieurs agents en parallèle, revendiqué compétitif avec Gemini Deep Think et GPT Pro (raisonner sur la sciences, les maths, la santé) > un mode shopping qui exploite tout le contenu créateurs/marques de l'écosystème Meta. L'IA intégrée au commerce, pas juste au chat. > un mode instant : réponses rapides type chatbot classique > un mode thinking : raisonnement approfondi sur une question > vision : il "voit et comprend le monde autour de toi" (probablement via la caméra, les photos, les stories) En gros : c'est un assistant IA multimodal qui vit dans toutes les apps Meta, qui raisonne, qui voit, et qui te vend des trucs. Le podium US est clair : Google, OpenAI, Anthropic dominent le frontier closed-source. Avec potentiellement des signes de recursive self-improvement. xAI a décroché pour l'instant. Meta revient dans la course avec une approche qui suggère qu'ils peuvent recoller. Côté Chine : Qwen (Alibaba), Kimi (Moonshot), MiniMax, MiMo (Xiaomi), DeepSeek, GLM (Z) tous encore dans la course. Mais les meilleurs modèles chinois restent 7 à 9+ mois derrière le closed-source US. Et surtout : Alibaba et Xiaomi semblent lacher l'open-weights. L'ère du "on publie les poids pour l'écosystème" touche peut-être à sa fin. La course aux modèles frontier se consolide autour de 3 leaders US, une poignée de challengers chinois, et tente de revenir Meta par la distribution.

Alexandr Wang@alexandr_wang

1/ today we're releasing muse spark, the first model from MSL. nine months ago we rebuilt our ai stack from scratch. new infrastructure, new architecture, new data pipelines. muse spark is the result of that work, and now it powers meta ai. 🧵

Français

1.1K

Matteo Gentili retweetledi

Supersocks@iamsupersocks·2 Nis

Pour les flemmards : Quand une IA discute, elle stocke des "notes" (KV cache). Plus c'est long, plus ça bouffe de mémoire. C'est LE bottleneck du local, pas les poids du modèle. Google a trouvé comment compresser ces notes ~6x sans perte mesurable. L'astuce : réorganiser les données pour que l'emballage de compression devienne inutile (PolarQuant), puis corriger les micro-erreurs avec 1 seul bit (QJL). Zéro entraînement, zéro calibration. Ça marche direct sur Llama, Qwen, Gemma, Mistral, n'importe quoi. ⚠️ Ça compresse PAS le modèle, juste sa mémoire de travail. Si ton 70B rentre pas en VRAM, TurboQuant change rien. Un dev solo (Tom Turney) a recréé le tout en 7 jours avec Claude : Google avait publié zéro code. Il a même découvert que compresser les valeurs V à 2 bits est "gratuit" tant que les clés K restent précises (K = GPS de l'attention, V = contenu à lire). Résultat le plus fou : un modèle 104B avec 128K de contexte sur un MacBook M5 Max. Concrètement : conversations plus longues, RAG sur des livres entiers en local, agents IA avec plus de mémoire, LLM sur smartphone sans cloud. Nvidia a un concurrent (KVTC) qui compresse 20x mais faut calibrer chaque modèle. TurboQuant = plug-and-play. On approche la limite théorique de Shannon pour ce type de compression. La prochaine avancée viendra pas de "compresser plus" mais de "penser différemment". Les actions mémoire ont perdu ~90 milliards, mais paradoxe de Jevons : l'efficience crée plus de demande, pas moins. Controverse : un chercheur d'ETH Zurich accuse Google de mal citer ses travaux (RaBitQ). Débat légitime, pas tranché. En une phrase : TurboQuant rend pas l'IA plus smart, il la rend plus possible sur ton matos, sans cloud, sans censure.

Supersocks@iamsupersocks

Google TurboQuant : le thread complet pour TOUT comprendre. Pétard mouillé ou game-changer pour les modèles locaux ? Pourquoi le marché mémoire a pricé 90 milliards de risque en quelques jours, pourquoi un dev solo a devancé Google sur l'implémentation, et pourquoi un MacBook fait déjà tourner un modèle de 104 milliards de paramètres. On déroule. 1/ Le problème. Quand une IA vous répond, elle garde des "notes" de toute la conversation. C'est le KV cache (Key-Value cache). Plus la conversation est longue, plus les notes grossissent. Et elles grossissent VITE. Le vrai bottleneck des LLM en local, c'est pas les poids du modèle on arrive à les quantizer comme il faut avec GGUF, AWQ, etc. C'est le KV cache. Exemple concret : le Qwen3.5-35B-A3B, le modèle que beaucoup d'entre vous font tourner en local. En Q4, il prend ~22 Go pour les poids. Ça rentre sur une RTX 4090 24 Go. Cool. Mais dès que tu pousses le contexte à 262K tokens (sa fenêtre native), le KV cache ajoute ~5 Go de plus. Là t'es à 27 Go. Ta 4090 a dit stop. Ceux qui build en local le savent : le vrai mur, c'est le contexte. Ton Qwen rentre en VRAM, mais essaie de lui donner un vrai document long ou une session de 50 messages et ta RAM te dit stop. Tu finis par couper le contexte à 32K, 16K, voire 8K pour que ça tienne. C'est aussi pour ça que ChatGPT ou Claude "oublient" le début de la conversation. Pas parce qu'ils sont bêtes. Parce que la mémoire de travail explose. 2/ Comment PolarQuant compresse autant. Prenez une carte au trésor. Deux façons de noter la même position : • "3 pas est, 4 nord" → coordonnées cartésiennes • "5 pas, cap 37°" → coordonnées polaires Même info, même taille. Jusque-là zéro gain. Mais voilà le piège : le coût de la compression, c'est pas les données. C'est l'emballage. En format classique, les valeurs sont chaotiques. Chaque paquet a besoin de son propre emballage sur-mesure (des constantes de calibration). À 3 bits de compression, ces emballages bouffent la moitié de la place qu'on vient de libérer. Un comble. PolarQuant applique une rotation mathématique qui force toutes les données à avoir la même distribution prévisible. Après ça, un seul emballage universel suffit pour tout. Le gaspillage disparaît. Le changement de coordonnées ne compresse rien. Il rend la compression possible sans déchets. 3/ Comment ça marche ? (en 3 couches de profondeur) Couche 1 - Pour tout le monde : TurboQuant prend les notes de l'IA, les réorganise pour qu'elles prennent 6x moins de place, sans perte mesurable sur les benchmarks. C'est comme ranger un placard en désordre. Rien n'est jeté, tout est juste mieux rangé. Couche 2 - Pour les curieux : Étape 1 (PolarQuant) : les données en mémoire sont un bazar, des valeurs énormes ici, minuscules là, aucun pattern. PolarQuant les "secoue" avec une rotation mathématique. Après ça, toutes les valeurs se rangent dans le même format prévisible. Un seul outil de compression universel suffit pour tout, au lieu d'un outil différent par bloc. C'est là que le gros du gain mémoire se fait. Étape 2 (QJL) : la compression laisse de minuscules erreurs résiduelles. TurboQuant utilise 1 seul bit par dimension pour les corriger. Le résultat : l'IA calcule ses scores d'attention aussi précisément qu'avant sur tous les benchmarks testés. Couche 3 - Pour les nerds : Le tout est data-oblivious : aucun entraînement, aucune calibration, aucun dataset. La rotation est une matrice orthogonale via décomposition QR. Le codebook est un quantizer Lloyd-Max optimal sur la distribution Beta induite. Budget total ~3.5 bits : 3 bits PolarQuant + 1 bit QJL. Distortion MSE bornée par √(3π/2) × 1/4^b. Proche des bornes théoriques à facteur constant près. 4/ Les chiffres qui claquent. → 80 Go de KV cache → 13 Go. Sur le même GPU. → Jusqu'à 8x plus rapide pour calculer l'attention sur H100 (en 4-bit, dans les benchmarks Google) → Qualité neutre sur LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER, L-Eval → Indexation vectorielle en 0.0013s vs 239s pour Product Quantization → Testé sur Gemma, Mistral, Llama, Qwen -> fonctionne sur tout → Data-oblivious : zéro calibration, zéro fine-tuning, ça marche out-of-the-box 5/ Ce que turboquant n'est pas. ⚠️ TurboQuant ≠ compression du modèle. Il compresse la MÉMOIRE DE TRAVAIL (le KV cache), pas le cerveau (les poids du modèle). Si ton 70B ne rentre déjà pas en VRAM, TurboQuant ne fait rien pour ça. C'est la différence entre avoir un bureau trop petit pour ton PC (→ problème de poids) vs avoir un bureau assez grand mais tes notes de travail débordent partout (→ problème de KV cache). TurboQuant résout le deuxième. 6/ L'histoire dingue: un dev solo devance Google. Google publie le papier le 25 mars. Zéro code. Tom Turney ouvre son terminal avec Claude. 7 jours plus tard : → Implémentation complète en C avec kernels Metal pour Apple Silicon → 4.6-4.9x de compression du KV cache → 102% de la vitesse de q8_0 (plus rapide, car moins de mémoire = moins de bande passante) → 511+ tests Python, 100% de couverture de code → Validé de 1.5B à 104B paramètres Et il a trouvé des trucs qui NE SONT PAS dans le papier de Google : • La compression des valeurs V est "gratuite" compresser V à 2 bits n'a aucun impact sur la qualité tant que les clés K restent précises • La précision des clés K est le facteur dominant car elles contrôlent le routage de l'attention via softmax • Les gros modèles absorbent mieux la quantization (104B : +3.6% PPL vs 70B : +11.4%) Lui-même le dit : quand il écrit "j'ai implémenté", c'est en tandem avec Claude Code et Codex. "Juste beaucoup de pilotage et de babysitting." Il n'a pas "battu" la recherche de Google. Il a battu Google sur la vitesse d'appropriation open source et la diffusion pratique. C'est ça l'ère actuelle : un humain + une IA bien pilotée devance une grosse équipe corporate qui garde son code fermé. Son repo turboquant_plus est déjà en cours d'intégration partout (llama.cpp, MLX, LM Studio...). Respect. 7/ Le résultat le plus fou Command-R+ 104 MILLIARDS de paramètres. 128K tokens de contexte. Sur un MacBook M5 Max 128 Go. 74 Go de RAM peak. PPL de 4.024. Un modèle de 104B. Sur un laptop. Avec 128K de contexte. Il y a 2 ans, ça aurait nécessité un cluster de GPU serveur. Autres résultats communautaires : • Prince Canuma : 6/6 needle-in-haystack sur Qwen3.5-35B-A3B jusqu'à 64K tokens (MLX) • RTX 4090 : output identique caractère par caractère à la baseline en 2-bit sur Gemma 3 4B • Premier test AMD validé : Radeon RX 9070 XT fonctionne sans modifs • M4 Pro 48 Go : 4.6x compression, 98% de la vitesse native sur Qwen2.5-32B Si t'as une carte avec beaucoup de VRAM/RAM, prépare-toi : les modèles de 70-100B en contexte 128K+ sont en train de devenir la nouvelle normale. C'est pas demain. C'est maintenant. 8/ ça sert à quoi concrètement Pour toi et moi : • Conversations ultra-longues sans que l'IA oublie le début • RAG sur des livres entiers en local • Agents qui raisonnent sur des centaines de tours sans exploser • LLMs locaux sur Mac/PC qui gèrent de vrais documents longs • Assistants IA sur smartphone, sans cloud, sans censure Pour les entreprises : • 5-6x plus d'utilisateurs par GPU en datacenter → coûts d'inférence qui chutent • Un cabinet d'avocats peut analyser un document de 1000 pages en local, sans envoyer ses données dans le cloud Pour la recherche : • Recherche vectorielle quasi-instantanée (Google Search, RAG, Spotify, Pinterest) • Fenêtres de contexte de 1 million de tokens deviennent viables économiquement Pour l'industrie : • Moins de pression sur la HBM (mémoire ultra-chère des GPU), possible shift vers DDR5/MR-DIMM • Pourrait desserrer un peu la pénurie mondiale de puces mémoire 9/ Le concurrent: Nvidia KVTC (aussi ICLR 2026) Nvidia a sa propre approche, inspirée de... la compression JPEG. • 20x de compression (vs 6x pour TurboQuant) • < 1 point de % de perte de précision • Testé de 1.5B à 70B (plus large que TurboQuant) • Mais nécessite une calibration PCA offline par modèle • S'intègre dans Dynamo + vLLM Deux philosophies : -> TurboQuant = plug-and-play, zéro config, marche sur tout -> KVTC = compression max, mais faut préparer chaque modèle La battle à ICLR 2026 fin avril va être intéressante. 10/ La limite de Shannon: on approche la frontière. Le point que personne ne couvre assez : L'erreur de TurboQuant approche la borne inférieure théorique de Shannon, à facteur constant près. En clair : pour cette famille de méthodes (quantization data-oblivious du KV cache), on est PRESQUE au maximum de ce qu'il est mathématiquement possible de compresser. Ça ne veut pas dire qu'il n'y aura plus d'avancée sur le KV cache. Mais la prochaine ne viendra probablement pas de "compresser encore plus dans le même paradigme". Il faudra changer d'approche : nouvelle architecture, nouvelle façon de gérer le contexte. TurboQuant ne marque pas la fin de l'histoire. Il marque une frontière dans cette direction. 11/ La controverse Jianyang Gao, post-doc à ETH Zurich et auteur de RaBitQ, accuse Google de citation insuffisante. Son argument : le mécanisme central (rotation aléatoire + quantization optimale) serait structurellement trop similaire à RaBitQ, qui l'a publié en premier. Réponse de Google : "La rotation aléatoire et le JL transform sont standard dans le domaine." Gao a déposé une plainte au comité d'éthique ICLR. Le Stanford NLP Group a relayé sa position. La contribution mathématique de TurboQuant est réelle. Le débat sur l'attribution est légitime. À ce stade, c'est une contestation publique, pas une faute établie. 12/ L'impact marché ~90 milliards de $ de capitalisation en moins sur les actions mémoire en quelques jours. Le marché a pricé le risque d'une moindre demande en mémoire pour l'inférence. Micron : -20% en 6 jours. SK Hynix : -6%. Samsung : -5%. SanDisk : -11% en un jour. Le CEO de Cloudflare a appelé ça "le DeepSeek de Google". Mais en face, Morgan Stanley, Citi et Wells Fargo avancent l'argument inverse : paradoxe de Jevons. Quand quelque chose devient moins cher, on en utilise PLUS, pas moins. Rendre le contexte "moins cher" va probablement faire exploser son usage. Les actions mémoire ont pris un coup à court terme, mais la demande globale de tokens pourrait bien augmenter. L'inférence représente déjà 60% des workloads IA et va vers 80%. Jensen Huang l'a dit à GTC 2026 : les datacenters sont des usines. Leur produit, c'est le token. Rendre les tokens moins chers = en produire plus = probablement plus de mémoire nécessaire au final. 13/ En une phrase TurboQuant ne rend pas l'IA plus intelligente. Il la rend utilisable sur ton hardware à toi, sans cloud, sans censure, avec un contexte qui tient la route. L'avenir des LLM n'est pas seulement dans les modèles plus gros. Il est dans le fait qu'on puisse enfin vraiment les faire tourner chez nous. Et il marque le moment où la compression data-oblivious du KV cache approche sa limite théorique. La suite ne sera plus "compresser mieux dans le même paradigme". Ce sera "penser différemment".

Français

Matteo Gentili retweetledi

🚨 AI News | TestingCatalog@testingcatalog·12 Şub

BREAKING 🚨: Google is testing new customisation styles for NotebookLM infographics! These new options include an auto-selection mode and 9 specific styles: sketch, kawaii, professional, anime, 3D clay, editorial, storyboard, bento grid, and bricks. Which is the best? 👀

English

841

54.6K

Matteo Gentili retweetledi

mitsuri@0xmitsurii·24 Oca

Xiaomi just unveiled a factory that makes 1 phone per second, runs 24/7, has no production workers, and operates in the dark.

English

244

838

8.6K

611K

Matteo Gentili retweetledi

Neel Somani@neelsomani·11 Oca

Weekend win: The proof I submitted for Erdos Problem #397 was accepted by Terence Tao. The proof was generated by GPT 5.2 Pro and formalized with Harmonic. Many open problems are sitting there, waiting for someone to prompt ChatGPT to solve them:

English

334

1.2K

8.7K

3.6M

Matteo Gentili@Matteo_gtli·10 Ara

@CBleuten @DFintelligence @MeruemLeSage Perso j’ai 48 Gb il tourne facilement :)

Français

169

Capitaine Bleuten@CBleuten·9 Ara

@DFintelligence @MeruemLeSage Combien de ram ? 24, 36, ou 48 sur le 16pouces ?

Français

1.2K

Defend Intelligence (Anis Ayari)@DFintelligence·9 Ara

MAIS WWWWWWWWWWHAAAAAAT !!! Mais purée, si c’est vrai, vous n’imaginez même pas le BANGER ASTRONOMIQUE !! Genre pouvoir utiliser une IA qui code à 68 SWE en OFFLINE !!!! Dans l’avion, ou quand t’as pas de réseau dans le train… Je vais tester ça tout de suite, mais ma hype est AU MAAAAAAAAAAX làààààà <33333333333.

Mistral AI@MistralAI

Our next-generation coding model family Devstral 2 is available in two sizes: Devstral 2 (123B) under a modified MIT license, and Devstral Small (24B) under Apache 2.0. Both SOTA, open-source, free to use, and available now via our API.

Français

1.4K

227.8K

Matteo Gentili@Matteo_gtli·12 Kas

@basicprompts AI

Matteo Gentili@Matteo_gtli·7 Ağu

@TarunAmasa @OpenAI If possible I really want to try it !

English

Tarun Amasa@TarunAmasa·6 Ağu

It’s official. We’ve raised $14m led by @OpenAI Startup Fund to bring AI to Excel. Endex is the first AI agent to live inside Excel. For the past year, we've been working with financial firms. Today we’re releasing it to the world. Our capacity is limited; comment below for an early invite 🧵

English

2.1K

454

8.1K

10.8M

Matteo Gentili@Matteo_gtli·31 Tem

@iruletheworldmo Well I think is too late 😭

English

🍓🍓🍓@iruletheworldmo·31 Tem

i’ve got 50 invites for perplexity comet so don’t forget to like comment and subscribe. if you leave a comment i’ll have comet reach out to you on my behalf to grab your email and set you up 50 COMET GIVEAWAYSSSSS BABY!!! get your agentic browsers while they’re hot

English

183

312

36.4K

Matteo Gentili@Matteo_gtli·31 Tem

@iruletheworldmo no way ?! If you can send the link really appreciate :)

English

🍓🍓🍓@iruletheworldmo·31 Tem

if you don't have perplexity comet access yet, leave a message and i'll send you a link

English

1.1K

851

138K

Matteo Gentili@Matteo_gtli·7 Nis

@omarsar0 @dair_ai Very clear thanks @omarsar0 ! But in my opinion one post challenging part is how to train LLM to as a better way the ecosystem arround them :) LLM are train to generate text /token not to drive on internet or other :)

English

215

elvis@omarsar0·7 Nis

Which technology augments LLMs: MCP or RAG? This was a great question posted this week in our office hour on model context protocol (MCP). I received a few related questions from our academy members this week, so I wanted to expand a bit on this question and offer a more detailed response. MCP is a protocol/standardization that enables LLM applications (like Claude Desktop and Windsurf) to connect to tools in a standardized way. The standardization is helpful because there is an explosion of tools, and it's useful to have a common way to connect tools as opposed to building out M different ways to connect to N different applications. Retrieval Augmented Generation (RAG), on the other hand, as the name implies, is about integrating a retrieval system that helps to bring relevant context to LLMs to reduce hallucination and introduce recent knowledge (helpful since LLMs have this knowledge-cutoff limitation). That being said, both RAG (via a retrieval engine) and MCP (via tool connections) help to pull in important information (also referred to as context) to the LLM to improve the accuracy of outputs and to make better decisions (in the case of agentic systems). In some way, RAG can also be seen as a tool, which means that it's possible to build MCP servers on top of RAG services or solutions. But I must mention here that RAG must be treated carefully because the retrieval component of it involves serious efforts to optimize. I come from the world of information retrieval systems and search so I've experience and seen how challenging it is to build effective RAG systems (a topic for another day). In other words, MCP doesn't replace RAG, it complements it, as is the case with other innovations like long-context LLM and large reasoning models. Thinking ahead, I also love the idea of agentic RAG systems, which entail leveraging tools to further improve or augment RAG systems by tackling knowledge gaps or reasoning more closely about the information before the system responds. From my own experiments, MCP enables efficient tool use and features (e.g., prompt templates and sampling), which leads to interesting agentic behaviors such as more sophisticated and efficient communication between agentic systems, tools, and hosts/clients and servers. This will continue to accelerate as more developers, companies, and services adopt it. As MCP matures, it might even help us discover new agentic architectures and design patterns along the way. Don't ever underestimate the power of standardization in technology, even in this new world of rapid acceleration and AI automation. In conclusion, it is early days for MCP but RAG systems (and its m many variants) continue to provide an extreme amount of value to businesses in knowledge-intensive domains like health and finance. Things evolve fast in this space, so it's always important to experiment with emerging ideas before forming an opinion. We built the academy to assist with this and create to forum for healthy discussions on the most advanced ideas in the field.

English

344

30.3K

Matteo Gentili@Matteo_gtli·10 Mar

@Wolfquant Si BTC will not pump before a long time ? I have more a long term in BTC is it better to liquid a bit a put money down or just stay and do nothing ? Thanks sir again

English

Matteo Gentili@Matteo_gtli·10 Mar

@Wolfquant Fuckkk if you say it too … 🥲

English

229

Matteo Gentili retweetledi

Bravos Research@bravosresearch·7 Mar

This time is NOT different. A thread 🧵

English

128

1.1K

149.8K

Matteo Gentili@Matteo_gtli·8 Mar

@deepwhale Ça s’est terminé sec par contre.

Français

766

Deep Whale@DeepWhale·8 Mar

🚨 🇺🇸 Le président Donald Trump a annoncé que les départements du Trésor et du Commerce exploreront de nouvelles stratégies pour accumuler des avoirs supplémentaires en #Bitcoin.

Français

235

23K

Keşfet

@teortaxesTex @jukan05 @zephyr_z9 @iamsupersocks @CBleuten @DFintelligence @MeruemLeSage @basicprompts