Roei Herzig

2.1K posts

Roei Herzig banner
Roei Herzig

Roei Herzig

@roeiherzig

Researcher @IBMResearch. Postdoc @berkeley_ai. PhD @TelAvivUni. Working on Compositionality, Multimodal Foundation Models, and Structured Physical AI.

Berkeley, CA Katılım Mart 2017
878 Takip Edilen1.6K Takipçiler
Sabitlenmiş Tweet
Roei Herzig
Roei Herzig@roeiherzig·
🚨Humanoid learning faces a major data gap: existing policies are trained on just a few hours of data. Video generation models offer a scalable bridge. Our new work shows how a humanoid can execute human actions from generated videos zero-shot. @berkeley_ai @nyuniversity Kepler
English
5
22
187
30.9K
Roei Herzig
Roei Herzig@roeiherzig·
Understanding the principles underlying Embodied AI systems is critical if we want to build embodied models.🧠🤖 But beyond that, the key question is: based on those principles, what architectures and inductive biases are best suited for these models? 🤔 This is where the real challenge begins. Unlike CNNs and Transformers, we are still far from identifying the right models and representations for Physical AI, and this is the line of research that excites me most and is the main focus of my research.🤖🔬
Roei Herzig tweet media
Jitendra MALIK@JitendraMalikCV

With Emmanuel Dupoux scp.net/persons/dupoux/ and Yann LeCun @ylecun, we consider a cognitive science inspired AI. We analyse how autonomous learning works in living organisms, and propose a roadmap for reproducing it in artificial systems. lnkd.in/eNWDmuqT

English
0
0
8
1K
Roei Herzig retweetledi
Edson Araujo
Edson Araujo@edsonroteia·
📢 Deadline Extension for MMFM Workshop @ #CVPR2026! We are extending the submission deadline to **March 14, 2026 (AoE)**. For updated details on submission timelines and guidelines, please refer to the workshop website and OpenReview page below. We’re excited to see your work!
Edson Araujo@edsonroteia

The 5th edition of the MMFM Workshop is coming to @CVPR 2026! "What is Next in Multimodal Foundation Models?" exploring the frontiers of vision, language, and beyond. June 2026 | Denver, CO Details in thread 👇

English
2
7
11
3.3K
Roei Herzig retweetledi
Tomer Galanti
Tomer Galanti@GalantiTomer·
TLDR: Your SSL model behaves like this: 1. Directional neural collapse: within-class variance shrinks along class-separating directions, even if it stays large elsewhere. 2. Task orthogonalization: different downstream tasks tend to use nearly orthogonal decision directions.
GIF
Tomer Galanti tweet media
English
3
23
98
6.8K
Roei Herzig
Roei Herzig@roeiherzig·
@holynski_ (It is actually the best way to learn structured underlying representations for pre-training from human videos, which do not have any robotic annotations, but can still be used for robotic action prediction.)
English
0
0
0
93
Roei Herzig
Roei Herzig@roeiherzig·
@holynski_ I think the point is not to diminish the role of 3D representations, but to be clearer about the goal: we should learn these representations not just to solve more 3D tasks, but to support perception for action. 3D/4D representations carry important signals about a robot’s state.
English
1
0
3
839
Aleksander Holynski
Aleksander Holynski@holynski_·
it might be true that 3d isn't as useful for some of the things we thought it might be (robotics?), but the most pessimistic interpretation of this blog as "3d isn't useful" or "3d is an unnecessary intermediate representation" is wrong. spatial (3D) quantities are themselves valuable. at the very least as interpretable human interfaces, as efficient representations of the visual world, or as signals that define or guide the construction and layouts of our spaces. the association of 3D creation/prediction with the "fake tasks" presented in Ross's talk is misleading. surfaces, free space, and the 3D world are actually very real things, unlike n-grams, semantics, and other NLP tasks that were strictly human constructs. 3D is no more fake than the pixels in our videos. if anything, it's probably less fake---like, what's natural about a grid of pixels?
Vincent Sitzmann@vincesitzmann

In my recent blog post, I argue that "vision" is only well-defined as part of perception-action loops, and that the conventional view of computer vision - mapping imagery to intermediate representations (3D, flow, segmentation...) is about to go away. vincentsitzmann.com/blog/bitter_le…

English
9
14
165
22.7K
Roei Herzig
Roei Herzig@roeiherzig·
@rosikand @vincesitzmann No...For example, MIT's Horn "Robot Vision" book. Vision was built to enable agents operate in the physical world.
English
0
0
4
133
Roei Herzig
Roei Herzig@roeiherzig·
I agree with @vincesitzmann, but I’d argue computer vision was fundamentally about perception-action in its early days. That focus only shifted once the Internet and large-scale data took over in the 90s. We are now simply returning to our roots. 🤖
Vincent Sitzmann@vincesitzmann

In my recent blog post, I argue that "vision" is only well-defined as part of perception-action loops, and that the conventional view of computer vision - mapping imagery to intermediate representations (3D, flow, segmentation...) is about to go away. vincentsitzmann.com/blog/bitter_le…

English
4
0
36
5.7K
Roei Herzig
Roei Herzig@roeiherzig·
@vincesitzmann Couldn't agree more. Computer vision, from its origins, was built to enable robotic control. Perception and action have gone hand in hand for a long time now (e.g., "Robot Vision" by Horn).
English
0
0
1
1.5K
Vincent Sitzmann
Vincent Sitzmann@vincesitzmann·
In my recent blog post, I argue that "vision" is only well-defined as part of perception-action loops, and that the conventional view of computer vision - mapping imagery to intermediate representations (3D, flow, segmentation...) is about to go away. vincentsitzmann.com/blog/bitter_le…
English
43
157
1K
366.1K
Roei Herzig
Roei Herzig@roeiherzig·
@GuanyaShi Omg, when I tell people that training a 3-4B language decoder is so relaxing, they don't believe me!
English
0
0
0
529
Roei Herzig
Roei Herzig@roeiherzig·
@Amit_Mandelbaum נקודות יפות. האמתי שיש המון דברים שAI לא קרוב לפתור, אז התשובה שלי היא למה לא להיות חוקרי AI, פשוט?...
עברית
0
0
0
244
Amit Mandelbaum
Amit Mandelbaum@Amit_Mandelbaum·
מחשבות נוגות על claude code, בינה מלאכותית והעתיד המקצועי יום אחד נסעתי עם חבר טוב ברכבת, ושאלתי אותו את השאלה, בהנחה שהסיכוי שלא יצטרכו את המקצוע בעוד חמש שנים שלך יותר גדול מ0, מה אתה עושה כדי להיערך לזה? לשנינו לא הייתה תשובה טובה מספיק הנה האמת, האמת היא שמאחורי כל חדוות היצירה הגדולה מאחורי השימוש בכלי AI מסתתרת תחושת ריקנות גדולה, ואפילו פחד מסוים. ככל שהכלים מתקדמים הצורך בפיקוח והתערבות אנושית הולך ופוחת. גם העבודה נראית שונה מאוד, מללכת ולעבוד קשה בלתכנת (ואני באמת אוהב את זה) העבודה הפכה למתן הוראות, לחכות שהוא יסיים (לגנוב איזה משחק שחמט או עוד סרטון ביוטיוב ברקע) ולהמשיך, ואחרי שמפשיטים את הכיף (האמיתי) ביכולת ליצור לבד משהו מאפס, נותרת השאלה המהותית של מה אני עושה בעצם, וחמור מכך, האם באמת צריך אותי כאן, ואם כן, האם זה יהיה נכון עוד שנה? שנתיים? חמש? כי אם כל אחד יכול לייצר מוצרים מאפס, אז גם המוצר שלך נבלע בתור רעש אינסופי של מוצרים. ואם כל אחד יכול להיות גם מתכנת גם איש פרודוקט, גם איש שיווק, אז מה יעשו מי שלא רוצים את זה? מה יעשה מי שלא רוצה להיות ה 10x Engineer? מה יעשה מי שלא יכול? הרי התמונות היפות שצילמתם והעליתם לאינסטגרם נלחמים ברעש האינסופי ששם, וזה עוד תחביב, מה קורה כשהמקצוע שלכם פשוט נבלע ברעש אינסופי של מיליוני אנשים שעושים בדיוק את אותו הדבר? אני מרגיש שהדבר חמור פי כמה לאנשי AI כמוני. כשעשיתי את התואר השני שני לפני יותר מעשור היו מעט מאוד אנשים בעולם שידעו לעבוד טוב עם מודלים. בחצי שנה האחרונה נחשפתי להמון חברות ואנשים שבנו מוצרי AI מעולים בלי שום רקע קודם. עזבו, אני בעצמי בניתי מוצרי AI סופר מורכבים עם כמעט 0 התערבות שלי. דברים שלא היו אפשריים לפני חצי שנה. לפני כמה שנים כתבתי פוסט שהפך להיות מאוד וויראלי על למה ממש חשוב לעשות תואר שני ב AI, היום? אני בכלל לא בטוח שהייתי ממליץ על זה. מה העתיד המקצועי של אנשי הטכנולוגיה? אני נמצא בתעשייה כבר 15 שנה והשינוי שקורה עכשיו הוא משהו שלא ראיתי בחיים. מקצועות שלמים הולכים להיעלם. וכן, אני יודע, תמיד זה קרה, ופעם כולם היו חקלאים, ובכל זאת, לאן אנחנו הולכים מכאן? לזה מתווספת תחושות ה FOMO האינסופית שגובה מחיר נפשי משמעותי, הצורך להיות מעודכן כל הזמן, הצורך ״לא להישאר מאחורה״, ותאמינו לי, בתור אחד שחווה איזה גל אחד או שניים של AI-Hype, מה שקורה עכשיו הוא דבר אמיתי, והוא משפיע לא טוב על המון אנשים סביבי. אנשים מוכשרים, וחכמים, שמרגישים שהם יוצאים מהמירוץ, או שפשוט לא בא להם להשתתף בו יותר. מישהו כתב פה לפני כמה ימים שעכשיו זה זמן מצוין להיות יזם. אני חולק עליו, אני לא מקנא בעליל ביזמי AI היום, שמוצאים את הטכנולוגיה שהם משתמשים בה משתנה כל חודש, שנלחמים בילדים מסן פרנסיסקו שעובדים 996 (תשע עד תשע, שש ימים בשבוע). עוד מוקדם לשפוט מה יקרה, ויש שיגידו שמה שהיה הוא שיהיה ואנשים ממציאים מקצועות חדשים. אני כן מרגיש שיש פה מחיר נפשי משמעותי, שלא מדברים עליו מספיק, ואנחנו לפני (שלא לומר בעיצומו) של משבר אמיתי, שקשה לשפוט איך נצא ממנו ולאן.
Amit Mandelbaum tweet media
עברית
73
12
587
47.1K
Carlos DP 🤖🇺🇸
Carlos DP 🤖🇺🇸@carlosdponx·
I disagree. Learn the fancy stuff first if that interests you, go as deep as you want into it, then learn the fundamentals underneath when you know the fancy stuff enough to know you’re missing the “why” of how it all works underneath. If you tell new people they have to learn MPC and pid loops before they get to play with training and deploying AI models, they’ll go too long without the results that got them interested in the first place and churn out. Don’t listen to purists. You can learn stuff in whatever order you want, there are no rules and robotics isn’t near solved yet.
Binh Pham@pham_blnh

my advice for robot enthusiasts don't go into the fancy stuff without the fundamentals robots have been in the wild for roughly 60 years, there are many bitter lessons pilled in their classical operations probrably most "AI" advocates can't recite what a pid loop is or have never touched sensor fusion this knowledge defines whether you're just here for the hype or you're here for the actual long game i.e. dynamics r crucial for implementing guardrails and safety procedures, mpc is actually used along with world models for sampling trajectories, sim2real requires realistic physics modeling and control modeling, etc determinism and formalalities will be one of the biggest problems to solve in next gen robotics and it won't come from folks who r just jumping the gun

English
12
15
183
49.3K
Roei Herzig
Roei Herzig@roeiherzig·
@cs_mshah Yes, we will release the code in the coming weeks, hopefully soon.
English
0
0
0
21
Roei Herzig
Roei Herzig@roeiherzig·
🚨Humanoid learning faces a major data gap: existing policies are trained on just a few hours of data. Video generation models offer a scalable bridge. Our new work shows how a humanoid can execute human actions from generated videos zero-shot. @berkeley_ai @nyuniversity Kepler
English
5
22
187
30.9K
Roei Herzig
Roei Herzig@roeiherzig·
Well, we put out a paper a few weeks ago showing how to do this 😀....We proposed a generalist policy for achieving it 🤖✨: x.com/roeiherzig/sta…
Embodied AI Reading Notes@EmbodiedAIRead

1X World Model | From Video to Action: A New Way Robots Learn Blog: 1x.tech/discover/world… 1X describes and shows initial results for a new potential way of learning robot policy using video generation based world modeling, compared to VLA which is based on VLM. - How it works: at inference time, the system receives a text prompt and a starting frame. The World Model rolls out the intended future image frames, the Inverse Dynamics Model extracts the trajectory, and the robot executes the sequence in the real world. - The World Model backbone: A text-conditioned diffusion model trained on web-scale video, mid-trained on 900 hours of egocentric human data of first-person manipulation tasks for capturing general manipulation behaviors, and fine-tuned on 70 hours of NEO-specific sensorimotor logs for adapting to NEO’s visual appearance and kinematics. - The Inverse Dynamics Model: similar to architecure used in DreamGen, and trained on 400 hours of robot data on random play and motions. - Results: The model can generate videos aligning well with real-world execution, and the robot can perform object grasping, manipulation with some degree of generalization. - Current limitations: The pipeline latency is high and it’s not lose-loop. Currently the WM takes 11 second to generate 5 second video on a multi-GPU server and IDM takes another 1 second to extract actions.

English
0
3
37
8.7K
Thomas Kipf
Thomas Kipf@tkipf·
Personal intelligence in Gemini is 🔥🔥🔥 If only this existed before I did all my US visa/GC paperwork. So many hours spent on painstakingly reconstructing my precise travel history over many years by manually sifting through emails, calendar entries etc. — now this is just a prompt away.
English
16
8
232
19.2K