
Alex Shtoff
11.3K posts

Alex Shtoff
@AlexShtf
Ph.D. Principal Scientist @ TII. Ex @YahooResearch. I do machine learning ∩ numerical methods ∩ SW development.
Israel Katılım Ağustos 2012
289 Takip Edilen1.3K Takipçiler
Sabitlenmiş Tweet

New post in my "Eigenvalues as models" series.
This one asks a practical question: can eigenvalue-based models be made much cheaper to train and evaluate without collapsing into something too simple to be interesting?
Dense matrices are expressive but expensive. Fully diagonal ones are cheap but too restrictive. In this post I explore a middle ground that turned out to be much more useful than I expected.
It is probably the most implementation-focused entry in the series so far: structured matrices, PyTorch/SciPy plumbing, and experiments.
If you care about spectral methods, differentiable numerical linear algebra, or unusual tabular model classes, this is post and the entire series is for you:
alexshtf.github.io/2026/03/15/Spe…
English

@jlylekim Is there any optimizer work that is not about "optimizing for language models"? :)
English

@kaiswonderlandd @loic_na Shinkansen may not be the fastest, but its scale is unprecedented. Neither in Europe nor in China. A huge number of lines, phenomenal frequency, safety, and capacity, and all of this at very high speeds. It serves almost the entire country.
English

Can't wait for Americans to discover modern technology

Noah Smith 🐇🇺🇸🇺🇦🇹🇼@Noahpinion
Can't wait for Europeans to discover modern technology
English

If you complain that a company asked you to code a simple palindrome check function during an interview, arguing that it "has nothing to do with the actual job", remember that it's just "cognitive screening." It's similar to asking the simple pattern recognition question below.
Beyza@hicasamadim
bunu çözersen, sen bir dahisin. çözebilir misin?
English

This is a very interesting approach, but let's take it one step further. There are plenty of integer programming solvers such as @mosektw , @gurobi , and others that, even though in the worst case have an exponential complexity, on many very large scale practical problems they find globally optimal solutions fairly quickly.
Have you tried just solving the integer programming problem directly?
English

Fresh on arXiv! 😁 Our new paper reformulates tokenisation as a linear program (LP), which we solve to get SOTA tokenisers! As a bonus, this LP allows us to know how close to optimal any tokeniser is! Check it out! 👇
Jan Tempus@Jan55028368
In our new paper, we reinterpret tokenisation as a problem in high-dimensional geometry (100M dims to be precise!), which we can solve efficiently to get a globally near-optimal tokeniser! Our method consistently improves language models over BPE. See 🧵for details.
English

@MikeE_3_14 @RichardSSutton קורה גם עם פולינומים, לא רק עם טורי פוריה.
מה שלא מפתיע אותי הוא שזה יצא מבית היוצר של John Duchi. האיש אגדה :)
עברית

@AlexShtf @RichardSSutton מעניין, לא חשבתי על זה ככה.
עברית

⚡️ה-bitter lesson האגדי של @RichardSSutton מכה שוב
🧲והפעם זה נמצא במחוזות הדאטה בפרט "דאטה איכותי" מה תגידו אם אספר שסינון הדאטה שלכם בעצם פוגע ביכולות של המודל? 🤯
💣מאמר חדש ודי חמוד מסטנפורד מטיל סוג של פצצונת(לדעתי די צפוי): תחת מספיק כוח חישוב, הפילטר הכי טוב לדאטה הוא שום פילטר. תשכחו מצינורות סינון יקרים שמנפים 99% מהרשת כדי לחפש זהב.
🤯למה זה קורה? ההסבר מבוסס על אלגברה לינארית טהורה. החוקרים מדגימים, דרך פירוק מטריצות (Low-Rank Matrix Factorization), שכאשר הקיבולת (אקספרסיבנס) של המודל גדולה מספיק (כלומר הדרגה גדולה מספיק), הרעש בדאטה ״נעלם״ מבחינה מתמטית.
בעוד שמודלים קטנים "נחנקים" ממידע זבל בגלל צוואר בקבוק ייצוגי, מודלים עצומים משתמשים ביתירות הפרמטרית שלהם(overparametrization) כדי לנתב את המידע המזוהם דרך חלקים מסוימים במודל.
הרעש ״מוזרק״ למרחב אורתוגונלי שלא מתנגש עם הידע האיכותי, וכך המודל מצליח לשאוב מידע מועיל אפילו מטקסט משובש לחלוטין סטטיסטית (כמו התפלגויות Unigram) ולהפיק ממנו ערך מבלי להיענש בביצועים. 🧠📉
במבחן המציאות, כשהחוקרים סקיילו את כמות ה-FLOPs ואת גודל המודל, הוכח שאימון על ה-Common Crawl הגולמי עקף לבסוף מסדי נתונים מסוננים בקפידה כמו RefinedWeb ו-DCLM-Baseline.
כדי לבחון את הגבולות, החוקרים הזריקו למאגר "זבל" טהור: מחרוזות טקסט אקראיות ומשפטים שסדר המילים בהם שובש לגמרי. התוצאה? המודלים הגדולים לא רק שלא קרסו, הם הצליחו להפיק מהכאוס הזה ערך אמיתי. החוקרים מנבאים שכאשר תעשיית ה-AI תגיע לעוצמות חישוב של כ-1e+30 FLOPs (על מודל גדול מספיק) אימון ישיר על הרשת הגולמית פשוט ישאיר אבק לכל מנגנון סינון שקיים כיום. 🚀
🧅🧄ה-Bitter Lesson מכה שנית. במקום להנדס פילטרים מורכבים על בסיס הטיות וקריטריונים אנושיים, תנו למתמטיקה ולכוח החישוב לדבר.
הסקייל, מתברר, מסנן הכי טוב בעצמו. 💥

עברית

@zbrandonz @alvarosabu The whole point is not understanding business in its current form, but changing it to a different form.
English

@alvarosabu If you can't understand why that won't work then you didn't understand business
English


Codex anywhere and everywhere, all the time.
Now your Mac doesn’t have to be unlocked for Codex to use your computer.
From your phone, Codex can securely use apps on your Mac, even when the screen is off and locked.
#locked-use" target="_blank" rel="nofollow noopener">developers.openai.com/codex/app/comp…

English

@bremen79 @XingyuZhou989 Has someone published a paper based on your blog post, before you did?
English

@XingyuZhou989 You should publish it. Learn from my mistakes: don't post anything new on a blog post without at least an arxiv report
English

פותח את הצ'אט
שואל שאלת מתמטיקה פתוחה
אותן 2 טעויות ברצף כמו המודל הקודם
סוגר את הצ'אט
Google DeepMind@GoogleDeepMind
Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first release is 3.5 Flash, our strongest model yet for agents and coding 🧵
עברית
















