Ismael Goulani

41 posts

Ismael Goulani

@IGoulani

Artificial intelligence Engineer

Paris, France Katılım Mart 2019

64 Takip Edilen36 Takipçiler

Adrien Grondin@adrgrondin·4 Nis

Google’s Gemma 4 E2B running on-device on iPhone 17 Pro Gemma 4 is built from the same research as Gemini 3, has image understanding capabilities and can reason if needed Running at ~40tk/s with MLX optimized for Apple Silicon

English

253

410

Ismael Goulani@IGoulani·5 Nis

@adrgrondin Nice job @adrgrondin , I just tried it on my phone! Amazing

English

Ismael Goulani@IGoulani·26 Mar

@MistralAI This is insane!

English

121

Mistral AI@MistralAI·26 Mar

🔊Introducing Voxtral TTS: our new frontier open-weight model for natural, expressive, and ultra-fast text-to-speech 🎭Realistic, emotionally expressive speech. 🌍Supports 9 languages and accurately captures diverse dialects. ⚡Very low latency for time-to-first-audio. 🔄Easily adaptable to new voices

English

214

623

4.6K

888.8K

Ismael Goulani retweetledi

Brivael Le Pogam@brivael·25 Mar

Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.

GIF

Français

259

1.3K

145.7K

Ismael Goulani retweetledi

Amazon Web Services@awscloud·30 Tem

Introducing AWS Community Builders: a global initiative which provides resources and mentorship to AWS builders who are passionate about sharing knowledge and connecting with the #AWSCommunity. go.aws/3jTW81N

English

159

321

Ismael Goulani@IGoulani·2 May

@elonmusk @rousseau_matt

QAM

Elon Musk@elonmusk·1 May

Just one stipulation on sale: I own Gene Wilder’s old house. It cannot be torn down or lose any its soul.

English

2.7K

1.6K

43.7K

Elon Musk@elonmusk·1 May

I am selling almost all physical possessions. Will own no house.

English

28K

18.1K

214.9K

Ismael Goulani@IGoulani·30 Nis

Glad to see that our article has been reviewed and featured in @TDataScience . @rousseau_matt @TomTerrier

Towards Data Science@TDataScience

10 tips to make your data science code cleaner and more efficient buff.ly/3bQxvhT

English

Ismael Goulani retweetledi

Mr@rousseau_matt·30 Nis

One day ago we shared our "10 tips to make your data science code cleaner and more efficient". Today we are glad to announce that our article has been reviewed and featured in @TDataScience. @IGoulani @ModeoAi Link 👉 towardsdatascience.com/10-tips-to-mak…

English

Ismael Goulani retweetledi

Modeo@ModeoAi·27 Nis

How to make your #MachineLearning pipelines more robust and more readable? This article written by the founders of modeo.ai gives you 10 tips to improve the way you code. @matthieurousseau_16015/10-tips-to-make-your-data-science-code-cleaner-798ba398fcbe" target="_blank" rel="nofollow noopener">medium.com/@matthieurouss…

English

Ismael Goulani retweetledi

Martin Varsavsky@martinvars·6 Mar

@sundarpichai @DeepMind Awesome

English

Ismael Goulani retweetledi

Sundar Pichai@sundarpichai·3 Mar

We want to help businesses and schools impacted by COVID-19 stay connected: starting this week, we'll roll out free access to our advanced Hangouts Meet video-conferencing capabilities through July 1, 2020 to all G Suite customers globally. cloud.google.com/blog/products/…

English

234

3.4K

12.5K

Ismael Goulani retweetledi

Julien Simon@julsimon·14 Şub

New how-to video! Training and testing a model locally, and then deploying it to Amazon #SageMaker with mlflow youtu.be/jpZSp9O8_ew #AWS #MachineLearning

YouTube

English

Ismael Goulani retweetledi

Cube@the_cube_dev·6 Şub

Deploying cubejs using gitlab, helm, kubernetes and Rancher by Yohay Golan link.medium.com/YlIvIZKGR3

Filipino

Ismael Goulani retweetledi

Elon Musk@elonmusk·29 Oca

A friend just sent me this excerpt from a Tesla blog I wrote 14 years ago

English

3.3K

28.3K

290K

Ismael Goulani retweetledi

François Chollet@fchollet·30 Kas

I think it's a better attitude to acknowledge that we don't know much, to be ready to doubt what we think we know, and to keep a curious mindset. In every situation and every conversation there's something to learn

English

511

Ismael Goulani retweetledi

Capgemini@Capgemini·27 Kas

Our talented #MachineLearning and AI champ @rousseau_matt shares how AWS #DeepRacer works, winning the French edition and prepping for the coming finale at #reInvent. Read his blog here: bit.ly/2s592DI

English

Ismael Goulani retweetledi

Mr@rousseau_matt·25 Kas

I will talk about the deepracer at #reinvent the 03 of December at the MGM Grant. Come see me if you want to see some cool python stuff. @Capgemini @awscloud