Matteo Robino 🌍

4K posts

Matteo Robino 🌍

@Robinohhh

Computer Vision Research Engineer 👁️

Paris, France Katılım Temmuz 2013

1.1K Takip Edilen294 Takipçiler

Sabitlenmiş Tweet

Matteo Robino 🌍@Robinohhh·27 Kas

@rasbt Hard to judge without seeing it in full training, as it’s not the case here. I’m a bit skeptical about how this could scale without a norm layer, and also without skip connections on networks much larger than 100 million parameters. We always come back to the basics transformer

English

25.6K

Matteo Robino 🌍@Robinohhh·2d

@iamsupersocks @Numerama sûrement une vieille photo

Français

Supersocks@iamsupersocks·3d

@Numerama Il a toujours les Meta Ray-Ban à ce que je vois. Dites-lui de mettre un petit scotch noir sur les caméras au cas où.

Français

Numerama@Numerama·3d

15 millions de paramètres. 1 seul GPU. LeWorldModel de Yann LeCun est un premier pas vers les « world models » capable de comprendre le monde physique 👉 l.numerama.com/IN0

Français

241

35.1K

Matteo Robino 🌍@Robinohhh·3d

@koylanai @IntuitMachine yes

Muratcan Koylan@koylanai·3d

@IntuitMachine memory stocks?

English

2.1K

Carlos E. Perez@IntuitMachine·4d

Ridiculous that a paper published a year ago (and republished by Google) tanked memory stocks today. This is how irrational the financial markets are.

English

665

44.9K

Matteo Robino 🌍@Robinohhh·6d

@askalphaxiv they just train a LpJEPA ? what's new ?

English

1.2K

alphaXiv@askalphaxiv·6d

Yann LeCun and his team can't stop cooking "LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels" One of the biggest bottlenecks of JEPA is they are hard to train, and this new research changes that. They propose LeWorldModel, which shows that a small model can learn a usable world model directly from raw pixels end-to-end. Sitting at 15M parameters, they made it without needing heuristics and avoiding anti-collapse hacks while staying competitive and planning up to 48x faster. Making JEPA based modeling much more accessible, cheaper, and stabler.

English

238

1.8K

191.1K

Matteo Robino 🌍@Robinohhh·22 Mar

@cortisquared oui évidemment, d'un point de vue optimisation il est préférable de des le début prendre un gros modèle pour ensuite le quantiser que d'essayer d'entraîner avec moins de paramètres ou de rattraper avec du pruning.

Français

279

Corti (Cortiste)@cortisquared·22 Mar

Le truc qui m’étonne le plus avec les LLM c’est qu’on peut les quantifier agressivement (en gros jusqu’à 4 bit / paramètre) sans perte significative de précision. 4 bit c’est 16 valeurs possibles. Je n’y connais rien dans ce domaine, mais ça me laisse penser que >

Français

6.5K

Matteo Robino 🌍@Robinohhh·21 Mar

@Okitwist @mengyer @ylecun have u read EchoJEPA ? I think it's the best example

English

SpaceTechRocks@Okitwist·20 Mar

@mengyer @ylecun Can we see the thing in action already ? jEPA has been talked about for years now , but all we see are papers and ideas . How about you fully train a model and show how it performs better than the existing ones ?

English

Mengye Ren@mengyer·20 Mar

Nice work V-JEPA 2.1 from Meta. Our team has also been exploring for a long time on dense and hierarchical video SSL (e.g. FlowE, PooDLe, and Midway). Glad to see it works on a larger scale.

Ksenia_TuringPost@TheTuringPost

A new paper from @ylecun and others – V-JEPA 2.1 It changes the recipe of V-JEPA so the model learns both: • Global semantics – what is happening in the scene • Dense spatio-temporal structure – where things are and how they move The idea is to supervise not just masked tokens but the visible ones too There are 4 key ingredients for V-JEPA 2.1: - Dense prediction loss on both masked and visible tokens - Deep self-supervision across intermediate layers - Modality-specific tokenizers (2D for images, 3D for videos) within a shared encoder - Model + data scaling The workflow turns into: masked image/video → encode visible tokens → predict latent representations for both masked and visible tokens → supervise at multiple layers Here are the details:

English

106

28.5K

Matteo Robino 🌍@Robinohhh·19 Mar

@KuangYilun @timrudner @NYUDataScience thanks !

English

Yilun Kuang@KuangYilun·19 Mar

@Robinohhh @timrudner @NYUDataScience Hi @Robinohhh, these LeJEPA & LpJEPA techniques were developed somewhat recently. In general, LeJEPA & LpJEPA have clear theoretical interpretations, good performances, and also provably generalize VCReg. They are promising candidate techniques for larger-scale training.

English

Tim G. J. Rudner@timrudner·19 Mar

Nice write-up by @NYUDataScience about our recent SSL paper! 🚀🤖 We propose Rectified Distribution Matching Regularization (RDMReg) for JEPAs: a theoretically-grounded sparsification method that yields a sota sparsity–performance trade-off! 🌐Paper: arxiv.org/abs/2602.01456

NYU Center for Data Science@NYUDataScience

CDS PhD student @KuangYilun, CDS founding director @ylecun, former CDS Faculty Fellow @timrudner, and others successfully applied biological sparsity to AI. Their new technique allows computer vision models to ignore 90% of data without losing accuracy. nyudatascience.medium.com/new-representa…

English

3.8K

Matteo Robino 🌍@Robinohhh·19 Mar

@timrudner @NYUDataScience poke @KuangYilun

English

Matteo Robino 🌍@Robinohhh·19 Mar

@timrudner @NYUDataScience Hello, do you understand why V-JEPA 2.1 does not utilize your method and opts for an EMA Teacher instead? Is it still considered superior to the LeJEPA/LpJEPA alternative without a teacher?

English

Matteo Robino 🌍@Robinohhh·19 Mar

@cortisquared on sait que la qualité change selon le provider

Français

Corti (Cortiste)@cortisquared·19 Mar

Je ne sais pas si c’est un bug du modèle, un problème chez le provider ou mon agent (opencode) qui gère mal le contexte.

Français

491

Corti (Cortiste)@cortisquared·19 Mar

Il y a des utilisateurs de minimax-m2.5 ici ? Il se retrouve souvent planté dans des thinking loops, par exemple il se met a repeter la même phrase en boucle dans son bloc thinking et ne fait rien.

Français

Matteo Robino 🌍@Robinohhh·19 Mar

@AdrienBardes @JiangruiZhao @AIatMeta @ylecun V-JEPA 2.5 little typo, no ?

Adrien Bardes@AdrienBardes·17 Mar

@JiangruiZhao @AIatMeta @ylecun We used it to blur faces and forgot about the watermark, will be fixed!

English

296

Jiangrui Zhao@JiangruiZhao·17 Mar

Why is there a watermark of Google banana here in V-JEPA 2.1? @AIatMeta @ylecun

English

657

Matteo Robino 🌍@Robinohhh·19 Mar

@lagrandedeesse c'est un sociologue

Français

lagrandedeesse@lagrandedeesse·16 Mar

Un grand philosophe... Voila pourquoi j'ai choisi de ne pas avoir de television...!

Paroles d'auteurs@Paroles_auteurs

"La télévision a un monopole de fait sur la formation des cerveaux. Or en mettant l'accent sur les faits divers, en remplissant ce temps par du vide, du rien, on écarte les informations pertinentes que devrait posséder le citoyen pour exercer ses droits démocratiques." Pierre Bourdieu

Français

Matteo Robino 🌍@Robinohhh·18 Mar

@evanfwost @FACEIT_OW @poko 👀

QME

165

Evan@evanfwost·17 Mar

this was a faceit expert game last night, i think this guy is kinda sus, what do we think? @FACEIT_OW

English

1.2K

104.7K

Matteo Robino 🌍@Robinohhh·18 Mar

@Amir_Intel @gchampeau je crois que oui, apresx je n'ai pas testé le a dégradation anglais - français non plus

Français

Amir_Intel@Amir_Intel·18 Mar

@Robinohhh @gchampeau Même avec des outputs en français il est bon ?

Français

Amir_Intel@Amir_Intel·17 Mar

🚨 Mistral AI nous vend une révolution avec son nouveau modèle Small 4, mais derrière le discours marketing bien huilé, la réalité est beaucoup moins reluisante Voici les 4 gros malaises qu'ils essaient de vous cacher! 🧵👇 1. Un modèle « Small » qui a la taille d'un éléphant 🐘 Mistral a osé baptiser son modèle « Small », alors qu'il embarque 119 milliards de paramètres et pèse la bagatelle de 242 Go à télécharger (mdr je vous laisse imaginer la machine de zinzin pour l'utiliser simonwillison.net). Dans la réalité, il est impossible à faire tourner sur un ordinateur classique, poussant les développeurs à s'exclamer avec ironie : « bon sang, "petit" ce n'est plus ce que c'était! » (reddit.com/r/LocalLLaMA/c…). 2. Le syndrome de l'autruche face au vrai rival 🙈 L'entreprise crie victoire en se comparant au modèle américain GPT-OSS 120B, mais passe totalement sous silence le modèle qui le domine réellement : Qwen 3.5 (reddit.com/r/LocalLLaMA/c…). Ce concurrent asiatique, pourtant beaucoup plus léger, l'écrase en sciences complexes avec un score de 84,2 contre seulement 71,2 pour Mistral, et le bat aussi en programmation avec 74,6 contre 63,6 (reddit.com/r/LocalLLaMA/c…). 3. Une IA « visionnaire » qui a sérieusement besoin de lunettes 👓 Mistral vante haut et fort les capacités visuelles révolutionnaires de son modèle (mistral.ai/news/mistral-s…). Pourtant, lors d'un test indépendant lui demandant de générer le dessin d'un pélican sur un vélo, le résultat a été désastreux : le vélo était « à l'envers et mutilé » et l'oiseau se résumait à une triste « série de courbes grises » (simonwillison.net). 4. La fonctionnalité star vendue... mais cassée 💥 La plus grande innovation mise en avant (le réglage de l'effort de réflexion ou reasoning_effort) était tout simplement impossible à configurer à la sortie car absente de leur propre manuel d'utilisation (simonwillison.net). Pire encore, lorsqu'on laisse l'IA travailler en autonomie sur de longs projets, ce réglage fait complètement planter le système avec une erreur fatale (400 reasoning_effort must be one of none or default) qui bloque les utilisateurs (github.com/openclaw/openc…).

Français

3.2K

Matteo Robino 🌍@Robinohhh·18 Mar

@gchampeau @Amir_Intel test le Qwen dense de 27b si ça passe en Q4 (sinon Q3), mais ça pourrait être lent en inférence

Français

Guillaume Champeau@gchampeau·17 Mar

@Amir_Intel Au passage, pour du rédactionnel et de l'analyse de document en local, tu conseilles quoi avec un GPU de 16 Go ? Je suis toujours sur GPT-oss 20B mais y a peut-être mieux.

Français

2.5K

Matteo Robino 🌍@Robinohhh·17 Mar

@PierreN04450898 @DFintelligence de quelle world model parles tu qui n'utilise pas de transformer ?

Français

Pol@PierreN04450898·17 Mar

@DFintelligence Les world models ne sont pas basés sur les transformers, donc ils ne nécessitent pas des quantités astronomiques de données comme pour les LLM. Ensuite les flux audio/video/sensoriels utilisés par les world models véhiculent énormément plus de d'informations qu'un texte.

Français

1.4K

Defend Intelligence (Anis Ayari)@DFintelligence·17 Mar

Bon sinon, tous les journalistes qui interviewent Yann Le Cun ou écrivent des articles sur lui, c’est quand que vous allez poser la vraie bonne question ???????????????????? ELLES VONT SORTIR D’OÙ, LES DONNÉES D’ENTRAÎNEMENT ????????????????????????????? Parce que c’est bien de parler de rupture avec les LLM, mais si les LLM ont marché aussi bien, aussi vite, c’est surtout parce que la data était disponible en masse. Et malgré ça, sa collecte coûte déjà des dizaines de millions de dollars. DONC COMMENT ILS VONT FAIRE ??????????????????????????

Defend Intelligence (Anis Ayari) tweet media

Français

212

78.5K

Matteo Robino 🌍@Robinohhh·17 Mar

@Smockkyy @Herve_Le_Vrai_ @NVIDIAGeForceFR on peut imaginer que le jeu personalise la DA du DLSS 5 via un finetuning, d'où fait que le DLSS 5 est disponible sur très peu de jeu. x.com/i/status/20336…

A.Robot@100PercentRobot

People in comments: It removes the artistic intent! (😭) The artistic intent: Realism But the game engines haven't progressed in 10 years, and pushing them this extra 5% takes 10 times the time, effort and processing power Also, you can turn it off

Français

139

Smock@Smockkyy·17 Mar

@Robinohhh @Herve_Le_Vrai_ @NVIDIAGeForceFR Ça changeait pas la gueule des persos, à la base c'est pour gagner des perfs sans perdre en fidélité visuelle, pas la changer totalement

Français

NVIDIA GeForce FR@NVIDIAGeForceFR·16 Mar

Nous annonçons le NVIDIA DLSS 5, une avancée majeure alimentée par l’IA qui franchit un nouveau cap en matière de fidélité visuelle dans les jeux, disponible cet automne. Le DLSS 5 enrichit chaque pixel avec un éclairage et des matériaux photoréalistes, réduisant ainsi davantage l’écart entre le rendu et la réalité.

Français

273

101

735

423K

Matteo Robino 🌍@Robinohhh·17 Mar

@Herve_Le_Vrai_ @NVIDIAGeForceFR ça disait pareil du DLSS 1 et 2, aujourd'hui tout le monde l'utilise

Français

489

Herve_Le_Vrai@Herve_Le_Vrai_·17 Mar

@NVIDIAGeForceFR C’est de la merde. On remarque immédiatement que c’est de l’IA. Faites remonter l’info, les joueurs ne veulent pas de votre IA de merde.

Français

113

8.5K

Matteo Robino 🌍@Robinohhh·17 Mar

@YogSoth0 @MistralDevs only 6b active

English

291

YogSotho@YogSoth0·17 Mar

@MistralDevs "small" "119B parameters"

GIF

English

161

5.6K

Mistral AI for Developers@MistralDevs·17 Mar

🔥 Meet Mistral Small 4: One model to do it all. ⚡ 128 experts, 119B total parameters, 256k context window ⚡ Configurable Reasoning ⚡ Apache 2.0 ⚡ 40% faster, 3x more throughput Our first model to unify the capabilities of our flagship models into a single, versatile model.

English

328

2.6K

380.3K

Matteo Robino 🌍@Robinohhh·12 Mar

@gchampeau @Zai_org ⤴️ il y a deux liens

Français

Matteo Robino 🌍@Robinohhh·12 Mar

@gchampeau @Zai_org Prend l'abonnement codex a 20€ tu auras normalement pas mal de quota. Sinon prend Kimi pour 1$ kimi.com/kimiplus/sale?… reddit.com/r/LocalLLaMA/c…

Français

237

Guillaume Champeau@gchampeau·12 Mar

Certains ont essayé GLM-5 via @Zai_org ici ? Pas encore fait de mon côté mais la différence de prix est tellement folle que je me demande si la différence de qualité justifie de rester sur Claude ou Codex, pour des projets persos.

Alexis GTM@twicewest94

C'est moi ou le plan Claude à 20€ existe juste pour te frustrer assez pour que tu passes à 90€ ?

Français

Keşfet

@iamsupersocks @Numerama @koylanai @IntuitMachine @askalphaxiv @cortisquared @Okitwist @mengyer