Matteo Robino 🌍

4K posts

Matteo Robino 🌍 banner
Matteo Robino 🌍

Matteo Robino 🌍

@Robinohhh

Computer Vision Research Engineer 👁️

Paris, France Katılım Temmuz 2013
1.1K Takip Edilen294 Takipçiler
Sabitlenmiş Tweet
Matteo Robino 🌍
Matteo Robino 🌍@Robinohhh·
@rasbt Hard to judge without seeing it in full training, as it’s not the case here. I’m a bit skeptical about how this could scale without a norm layer, and also without skip connections on networks much larger than 100 million parameters. We always come back to the basics transformer
English
4
2
96
25.6K
Supersocks
Supersocks@iamsupersocks·
@Numerama Il a toujours les Meta Ray-Ban à ce que je vois. Dites-lui de mettre un petit scotch noir sur les caméras au cas où.
Français
1
0
0
1K
Numerama
Numerama@Numerama·
15 millions de paramètres. 1 seul GPU. LeWorldModel de Yann LeCun est un premier pas vers les « world models » capable de comprendre le monde physique 👉 l.numerama.com/IN0
Numerama tweet media
Français
11
37
241
35.1K
Carlos E. Perez
Carlos E. Perez@IntuitMachine·
Ridiculous that a paper published a year ago (and republished by Google) tanked memory stocks today. This is how irrational the financial markets are.
Carlos E. Perez tweet media
English
31
49
665
44.9K
alphaXiv
alphaXiv@askalphaxiv·
Yann LeCun and his team can't stop cooking "LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels" One of the biggest bottlenecks of JEPA is they are hard to train, and this new research changes that. They propose LeWorldModel, which shows that a small model can learn a usable world model directly from raw pixels end-to-end. Sitting at 15M parameters, they made it without needing heuristics and avoiding anti-collapse hacks while staying competitive and planning up to 48x faster. Making JEPA based modeling much more accessible, cheaper, and stabler.
alphaXiv tweet media
English
40
238
1.8K
191.1K
Matteo Robino 🌍
Matteo Robino 🌍@Robinohhh·
@cortisquared oui évidemment, d'un point de vue optimisation il est préférable de des le début prendre un gros modèle pour ensuite le quantiser que d'essayer d'entraîner avec moins de paramètres ou de rattraper avec du pruning.
Français
0
0
0
279
Corti (Cortiste)
Corti (Cortiste)@cortisquared·
Le truc qui m’étonne le plus avec les LLM c’est qu’on peut les quantifier agressivement (en gros jusqu’à 4 bit / paramètre) sans perte significative de précision. 4 bit c’est 16 valeurs possibles. Je n’y connais rien dans ce domaine, mais ça me laisse penser que >
Français
8
0
16
6.5K
SpaceTechRocks
SpaceTechRocks@Okitwist·
@mengyer @ylecun Can we see the thing in action already ? jEPA has been talked about for years now , but all we see are papers and ideas . How about you fully train a model and show how it performs better than the existing ones ?
English
1
0
2
95
Mengye Ren
Mengye Ren@mengyer·
Nice work V-JEPA 2.1 from Meta. Our team has also been exploring for a long time on dense and hierarchical video SSL (e.g. FlowE, PooDLe, and Midway). Glad to see it works on a larger scale.
Ksenia_TuringPost@TheTuringPost

A new paper from @ylecun and others – V-JEPA 2.1 It changes the recipe of V-JEPA so the model learns both: • Global semantics – what is happening in the scene • Dense spatio-temporal structure – where things are and how they move The idea is to supervise not just masked tokens but the visible ones too There are 4 key ingredients for V-JEPA 2.1: - Dense prediction loss on both masked and visible tokens - Deep self-supervision across intermediate layers - Modality-specific tokenizers (2D for images, 3D for videos) within a shared encoder - Model + data scaling The workflow turns into: masked image/video → encode visible tokens → predict latent representations for both masked and visible tokens → supervise at multiple layers Here are the details:

English
1
13
106
28.5K
Yilun Kuang
Yilun Kuang@KuangYilun·
@Robinohhh @timrudner @NYUDataScience Hi @Robinohhh, these LeJEPA & LpJEPA techniques were developed somewhat recently. In general, LeJEPA & LpJEPA have clear theoretical interpretations, good performances, and also provably generalize VCReg. They are promising candidate techniques for larger-scale training.
English
1
0
1
40
Tim G. J. Rudner
Tim G. J. Rudner@timrudner·
Nice write-up by @NYUDataScience about our recent SSL paper! 🚀🤖 We propose Rectified Distribution Matching Regularization (RDMReg) for JEPAs: a theoretically-grounded sparsification method that yields a sota sparsity–performance trade-off! 🌐Paper: arxiv.org/abs/2602.01456
NYU Center for Data Science@NYUDataScience

CDS PhD student @KuangYilun, CDS founding director @ylecun, former CDS Faculty Fellow @timrudner, and others successfully applied biological sparsity to AI. Their new technique allows computer vision models to ignore 90% of data without losing accuracy. nyudatascience.medium.com/new-representa…

English
1
3
33
3.8K
Matteo Robino 🌍
Matteo Robino 🌍@Robinohhh·
@timrudner @NYUDataScience Hello, do you understand why V-JEPA 2.1 does not utilize your method and opts for an EMA Teacher instead? Is it still considered superior to the LeJEPA/LpJEPA alternative without a teacher?
English
2
0
1
91
Corti (Cortiste)
Corti (Cortiste)@cortisquared·
Je ne sais pas si c’est un bug du modèle, un problème chez le provider ou mon agent (opencode) qui gère mal le contexte.
Français
1
0
0
491
Corti (Cortiste)
Corti (Cortiste)@cortisquared·
Il y a des utilisateurs de minimax-m2.5 ici ? Il se retrouve souvent planté dans des thinking loops, par exemple il se met a repeter la même phrase en boucle dans son bloc thinking et ne fait rien.
Français
9
0
2
3K
Evan
Evan@evanfwost·
this was a faceit expert game last night, i think this guy is kinda sus, what do we think? @FACEIT_OW
English
48
51
1.2K
104.7K
Amir_Intel
Amir_Intel@Amir_Intel·
🚨 Mistral AI nous vend une révolution avec son nouveau modèle Small 4, mais derrière le discours marketing bien huilé, la réalité est beaucoup moins reluisante Voici les 4 gros malaises qu'ils essaient de vous cacher! 🧵👇 ​1. Un modèle « Small » qui a la taille d'un éléphant 🐘 Mistral a osé baptiser son modèle « Small », alors qu'il embarque 119 milliards de paramètres et pèse la bagatelle de 242 Go à télécharger (mdr je vous laisse imaginer la machine de zinzin pour l'utiliser simonwillison.net). Dans la réalité, il est impossible à faire tourner sur un ordinateur classique, poussant les développeurs à s'exclamer avec ironie : « bon sang, "petit" ce n'est plus ce que c'était! » (reddit.com/r/LocalLLaMA/c…). ​2. Le syndrome de l'autruche face au vrai rival 🙈 L'entreprise crie victoire en se comparant au modèle américain GPT-OSS 120B, mais passe totalement sous silence le modèle qui le domine réellement : Qwen 3.5 (reddit.com/r/LocalLLaMA/c…). Ce concurrent asiatique, pourtant beaucoup plus léger, l'écrase en sciences complexes avec un score de 84,2 contre seulement 71,2 pour Mistral, et le bat aussi en programmation avec 74,6 contre 63,6 (reddit.com/r/LocalLLaMA/c…). ​3. Une IA « visionnaire » qui a sérieusement besoin de lunettes 👓 Mistral vante haut et fort les capacités visuelles révolutionnaires de son modèle (mistral.ai/news/mistral-s…). Pourtant, lors d'un test indépendant lui demandant de générer le dessin d'un pélican sur un vélo, le résultat a été désastreux : le vélo était « à l'envers et mutilé » et l'oiseau se résumait à une triste « série de courbes grises » (simonwillison.net). ​4. La fonctionnalité star vendue... mais cassée 💥 La plus grande innovation mise en avant (le réglage de l'effort de réflexion ou reasoning_effort) était tout simplement impossible à configurer à la sortie car absente de leur propre manuel d'utilisation (simonwillison.net). Pire encore, lorsqu'on laisse l'IA travailler en autonomie sur de longs projets, ce réglage fait complètement planter le système avec une erreur fatale (400 reasoning_effort must be one of none or default) qui bloque les utilisateurs (github.com/openclaw/openc…).
Amir_Intel tweet media
Français
4
0
1
3.2K
Guillaume Champeau
Guillaume Champeau@gchampeau·
@Amir_Intel Au passage, pour du rédactionnel et de l'analyse de document en local, tu conseilles quoi avec un GPU de 16 Go ? Je suis toujours sur GPT-oss 20B mais y a peut-être mieux.
Français
3
0
0
2.5K
Pol
Pol@PierreN04450898·
@DFintelligence Les world models ne sont pas basés sur les transformers, donc ils ne nécessitent pas des quantités astronomiques de données comme pour les LLM. Ensuite les flux audio/video/sensoriels utilisés par les world models véhiculent énormément plus de d'informations qu'un texte.
Français
2
0
6
1.4K
Defend Intelligence (Anis Ayari)
Defend Intelligence (Anis Ayari)@DFintelligence·
Bon sinon, tous les journalistes qui interviewent Yann Le Cun ou écrivent des articles sur lui, c’est quand que vous allez poser la vraie bonne question ???????????????????? ELLES VONT SORTIR D’OÙ, LES DONNÉES D’ENTRAÎNEMENT ????????????????????????????? Parce que c’est bien de parler de rupture avec les LLM, mais si les LLM ont marché aussi bien, aussi vite, c’est surtout parce que la data était disponible en masse. Et malgré ça, sa collecte coûte déjà des dizaines de millions de dollars. DONC COMMENT ILS VONT FAIRE ??????????????????????????
Defend Intelligence (Anis Ayari) tweet media
Français
70
16
212
78.5K
NVIDIA GeForce FR
NVIDIA GeForce FR@NVIDIAGeForceFR·
Nous annonçons le NVIDIA DLSS 5, une avancée majeure alimentée par l’IA qui franchit un nouveau cap en matière de fidélité visuelle dans les jeux, disponible cet automne. Le DLSS 5 enrichit chaque pixel avec un éclairage et des matériaux photoréalistes, réduisant ainsi davantage l’écart entre le rendu et la réalité.
Français
273
101
735
423K
Herve_Le_Vrai
Herve_Le_Vrai@Herve_Le_Vrai_·
@NVIDIAGeForceFR C’est de la merde. On remarque immédiatement que c’est de l’IA. Faites remonter l’info, les joueurs ne veulent pas de votre IA de merde.
Français
16
2
113
8.5K
Mistral AI for Developers
Mistral AI for Developers@MistralDevs·
🔥 Meet Mistral Small 4: One model to do it all. ⚡ 128 experts, 119B total parameters, 256k context window ⚡ Configurable Reasoning ⚡ Apache 2.0 ⚡ 40% faster, 3x more throughput Our first model to unify the capabilities of our flagship models into a single, versatile model.
Mistral AI for Developers tweet media
English
92
328
2.6K
380.3K