Tom Zohar

526 posts

Tom Zohar

Tom Zohar

@tomzohar1

@Google Engineering Manager

Katılım Ocak 2012
147 Takip Edilen65 Takipçiler
Tom Zohar
Tom Zohar@tomzohar1·
@FeedTechILUncen זה לא התפקיד של העובדים? לרכל ולהתלונן על המנהל? מהתלונות עלי למדתי הכי הרבה, אני מעודד את זה.
עברית
1
0
0
334
פידטק וידויים אנונימיים ללא צנזורה
מנהלת צוות פיתוח, אני מודעת לקבוצת וואטסאפ בה העובדים שלי מרכלים עליי. אני לא יודעת איך לעכל את זה ומה לעשות מכאן. טיפים איך להמשיך לעבוד איתם? אני מרוסקת מזה ברמה שאני רוצה לעזוב ולהיעלם!
פידטק וידויים אנונימיים ללא צנזורה@FeedTechILUncen

הקליקו כאן לכתוב וידוי אנונימי 👇 docs.google.com/forms/d/e/1FAI…

עברית
57
0
95
41.1K
Tom Zohar
Tom Zohar@tomzohar1·
@Arbel2025 אתה צריך להוסיף עוד סעיף הוצאות AI וטוקנים לתכנון הטיול לפני ובזמן
עברית
1
0
2
111
Arbel Zinger
Arbel Zinger@Arbel2025·
1/7 אז כמה עלתה לי החופשה? אבל בדיוק. לא מייצג. מחושב לאדם אחד (טיילתי עם 6 חברים מהצבא) 3 לילות במדריד. אנחנו לא חסכנים אבל גם לא פזרנים (מאוד. הפעם הייתי קצת פזרן אבל שער האירו עזר). ספוילר: 5094.54 (אבל יש דיסקליימרים). #פידטיולים #פידהוצאות #קוביזם בפרקים הקודמים:
Arbel Zinger tweet media
Arbel Zinger@Arbel2025

1/7 אז כמה עלתה לנו החופשה? אבל בדיוק. לא מייצג. זוג בלי ילדה (ווהו!). 3 לילות ברומא שנדחו מיוני בגלל איראן. אנחנו לא חסכנים אבל גם לא פזרנים (מאוד. הפעם מרגיש שיצאנו אפילו קצת חסכנים בשבילנו). ספוילר: 8841.72 ש"ח (אבל יש דיסקליימרים). #פידטיולים #פידהוצאות בפרקים הקודמים:

עברית
9
0
71
31K
Tom Zohar
Tom Zohar@tomzohar1·
@maorshlomo Interesting, but in order for this to make sense it’s important to: 1. Make sure users are not aware which model they are using (LMArena style) 2. Disclose how frustration is identified, since the benchmark is really sensitive to the frustration classification quality
English
0
0
0
94
Maor Shlomo
Maor Shlomo@MaorShlomo·
We’re introducing a new model benchmark. And it’s a different kind of benchmark. (Basemark? Vibench?) A different kind because it’s breathing, constantly updated from millions of builders. Not a closed set of tasks. For a while now the public benchmark have not been really useful. Many models scoring high on benchmarks with very low real world usability So we’re introducing to the world a new benchmark that we’re using internally and found extremely useful. Our benchmark is basically how satisfied millions of users are when using different models. IMO it’s the closest measurement to how useful a model is in real world use cases. This metric is also correlated with our own business metrics - conversion, retention, etc. We called it the frustration meter. It’s automatically analysing millions of messages daily It detects bug loops, repeated requests, etc. We use this to benchmark every model we consider shipping. Not by asking "did it generate correct code." By asking "how did the builder feel after using it." it’s a good benchmark to measure model degradation. So far in the past few weeks we haven’t found any. Here's where the top models stand right now, ranked by average frustration score (scale 1 to 5, lower is better): opus 4.6 - 1.3 sonnet 4.6 - 1.4 opus 4.7 - 1.5 gpt 5.5 - 1.5 gpt 5.4 - 1.6 Gemini 3.1 - 2.2 For app building, Opus 4.6 seems better than 4.7 to a lot of builders. We ran Opus 4.7 50/50 against Opus 4.6 across over 10,000 apps. Frustration riseed by 43%. Turns per request by 19%. Gemini 3.1 don’t perform well at the moment, I left out of the graph as it made it unclear due to it’s rapid changes in this benchmark. Quick note - this is all aggregated data, and do not involve reading individual or identifiable conversations. We’ll keep tracking it and I’ll share it from time to time.
Maor Shlomo tweet media
English
27
20
176
52.7K
Tom Zohar
Tom Zohar@tomzohar1·
@talitshe גם אם אתה לא נוסע פלטינום-יהלומים
GIF
עברית
1
0
1
48
טלית שכולה
טלית שכולה@talitshe·
טוב, הסיפור שלי עם אל על הפוך וקצת מוזר. מאז שעברתי לטוס איתם בענייני עבודה, באוקטובר 2023 (נחשו למה), הגעתי די מהר לדירוג יוקרה-פלטינה-עם-נצנצים. זה אומר שכל טיסה, גם אם זו טיסה פרטית ואני במחלקת תיירים (או אפילו מחלקת מטען), דייל או דיילת יגיעו אלי, יציגו את עצמם, »
Tamar Lasker@tamarlask

השבוע נסעתי ללונדון עם טיסת אלעל וגם חזרתי ממנה. וזהו סיפורי. כבר מהכניסה אף אחד לא מסתכל עליך. האמירת שלום בכניסה היא לא רק קטע של מלצרית בדיזינגוף, זה ממש לראות את הנוסעים: מישהו חולה? מישהו שיכור? מישהו מתנהג מוזר? אף אחד לא הסתכל עליי, לא אמר לי שלום. אפילו קצת חיפשתי קשר עין וזה לא קרה. גם להסביר לאנשים איפה הם יושבים? כן, יש כאלה שהיו שמחים וזאת יעילות כשצריך להוציא טיסה בזמן ושכולם ישבו. אפרופו איפה יושבים. את אלעל לא כל כך מעניינת זרימת הנוסעים. בחברות זרות הרבה פעמים יש חלוקה לפי שורות, מכניסים קבוצות קבוצות לפי השורות במטוס כדי לא לייצר פקק. באלעל? מכניסים את שורה 14 ושורה 36 ביחד. זה לא מעניין אותם. שמיכות, בטיסה חזור זה חיכה על המושב למרות שכבר היה קרוב לעשר בבוקר. בטיסה הלוך הדייל חילקה את השקיות משקית פח אשפה צפרדע. למה? האוכל, נכון, מטוס זה לא אירוע קולינרי. אין ציפייה. אבל עשיתם כזה יח״צ לזה שאסף גרניט הוא השף שלכם וכל מה שיצא מזה זה פרעצל עם גבנ״צ? מה נסגר? למה להביא את האירוע הפחמימתי-שומני-מלוח הזה? מה עם יוגורט וגרנולה? אולי פרי? בטיסת בריטיש מביאים מגש עם כמה דברים. פה? דוחפים לך את הפרעצל עם הניילון ובקבוק מים. בהלוך נרדמתי, אבל בחזור עברו פעם אחת עם המים, פעם שנייה עם הכריך ופעם שלישית עם הקפה. שאלתי מה עם מיץ תפוזים וקולה זירו קיבלתי מלמול של “אח״כ”. למה אי אפשר לדבר עם הנוסעים במשפטים שלמים? התוצאה הייתה מעבר של עגלת דיוטי פרי. אבל אני? אני רציתי זירו. ישבתי באמצע המטוס, ואז הבחנתי שחזרו אנשים מהשירותים עם שקיות עבאדי. אפילו ראיתי סבתא עם 5 שקיות כאלה. הלכתי אחורה ושם פגשתי שני דיילים בספסל האחורי מדברים על אלעל, על זה שהציעו לאחד מהם תפקיד והוא לא יודע וסתם ריכולים קלים על חוויות מנוסעים וצוות. מכירים את הספסל האחורי בטיול שנתי? כזה. בעיני מוזר לדבר על מקום העבודה שלך מול הלקוחות. אז במאחורה של המטוס יש סלסלת עבאדי לשימוש עצמי. זה לא לכולם זה רק לאלה שהלכו לשירותים. אבל מה עם הזירו? נאמר לי לחכות לדיילת. מסתבר שבאל על החליטו לחסוך ולא עוברים עם עגלת משקאות, אלא מסתמכים על המוטיבציה של הנוסעים לקבל קולה זירו. אז חיכיתי זמן רב לדיילת ליד השירותים שהגיעה ומזגה לי קולה זירו חמה. מי בכלל יציע לך קרח? ולמה אתם מסתירים את הקולה זירו????? כמובן שתמיד לא מסודר שם, אפילו בטיחותית זה מעאפן בטיסה שלי הטייס לא דיבר. וואלה, בעיני אלעל, הטיקט שלכם זה גם טייסי חיל אוויר. דברו אלינו. תספרו שהמזג אוויר נוח או לא. יש אחוזים גדולים של אנשים שמתמודדים עם חרדה בטיסה. זה לא נייס טו האב זה חלק מהחוזה של המחיר פרימיום. חבילת הבידור, יופי, מתחברים דרך הנייד. אבל ה-UXUI כל כך גרוע. החלוקה היא ללועזי וישראלי. התחלת לשמוע אתניקס ורוצה לחפש משהו אחר? חוזרים לתפריט הראשי. אין זרימה, אין חיפוש נורמלי, אין אפשרות להמשיך לשמוע תוך כדי גלילה. זה מיושן ומתסכל. נגיד הטקסט לנוסעים מהפרסר, תהיו יצירתיים לא במובן של בדיחות אלא מה החוויה שאתם מציעים. אתם מדברים בעברית לקהל דובר עברית. תעבדו על טונציה, אכפתיות. זה נשמע כמו טקסט של רובוט. ותתקנו את האודיו והווידאו פעם אחת סרטון הבטיחות היה מטושטש לגמרי, פעם שנייה נפתח לא בקיו הכסף הקטן שנועד לתרומה זה אקט מהמם של אלעל אבל זה אקט מתחילת שנות האלפיים, אנחנו ב2026 למי יש כסף קטן? זה הזמן לפרוייקט אחריות חברתי חדש. ולסיכום, אלעל לוקחת מחירי פרימיום, אז ההסכם הוא לקבל שירות פרימיום. שירות שמאחוריו עומדת תפיסה מגובשת של מה זה שירות ומה החוויה ללקוח. כן, אני יודעת הדיילים הם קודם כל לבטיחות אבל זה לא אומר שאי אפשר להצטיין גם בשירות וזה לא קרה

עברית
22
0
170
77.7K
Tom Zohar
Tom Zohar@tomzohar1·
@alono88 “What can I learn from this feedback?”
English
1
0
3
755
Alon Oring
Alon Oring@alono88·
בואו נדבר רגע על פיתוח תוכנה בעידן האייג'נטים. מלבד לניתוח בעיות אבטחה באפליקציות שאנשים משתפים פה בטוויטר יוצא לי גם לקרוא לא מעט קוד-של-קלוד שסטודנטים כותבים ועלו לי כמה תובנות על האופן בו אנשים מקודדים אבל בעיקר מתקנים בעידן האייג'נטים.
עברית
11
2
126
15K
Tom Zohar
Tom Zohar@tomzohar1·
@urieli17 מצחיק שכל העולם לומד את הקוד הגנוב של קלוד אחרי שאנתרופיק למדו מספרים גנובים
עברית
0
0
0
82
Uri Eliabayev
Uri Eliabayev@urieli17·
נתחיל ישר מהדברים המעניינים ביותר: הקוד דלף ומישהו העלה אותו לGithub, אנטרופיק מנסה עכשיו להוריד את כל השכפולים אבל אז באו כמה חבר'ה וכתבו את הכל בשתי שפות תכנות אחרות ואז לכאורה זה כבר לא הפרה של תנאי השימוש של אנטרופיק. זה טרולינג ברמה גבוהה. x.com/altryne/status…
Alex Volkov@altryne

If you, like me, just woke up, let me catch you up on the Claude Code Leak (I know nothing, all conjecture): > Someone inside Anthropic, got switched to Adaptive reasoning mode > Their Claude Code switched to Sonnet > Committed the .map file of Claude Code > Effectively leaking the ENTIRE CC Source Code > @realsigridjin was tired after running 2 south korean hackathons in SF, saw the leak > Rules in Korea are different, he cloned the repo, went to sleep > Wakes up to 25K stars, and his GF begging him to take it down (she's a copyright lawyer) > Their team decided - how about we have agents rewrite this in Python!? Surely... this is more legal > Rewrite in Py > Board a plane to SK🇰🇷 > One of the guys decides python is slow, is now rewriting ALL OF CLAUDE CODE into Rust. > Anthropic cannot take down, cannot sue > Is this "fair use?" > TL;DR - we're about to have open source Claude Code in Rust

עברית
4
0
99
14.7K
Uri Eliabayev
Uri Eliabayev@urieli17·
טוב, אז כמו שאתם יודעים הקוד מקור של קלוד קוד נחשף בטעות על ידי אחד העובדים של אנטרופיק. זה יצר המון בלאגן והרבה גלים משניים. חכיתי רגע שהתמונה תתבהר והנה כל מה שזה גרם ודברים מגניבים שנחשפו: x.com/Fried_rice/sta…
Chaofan Shou@Fried_rice

Claude code source code has been leaked via a map file in their npm registry! Code: …a8527898604c1bbb12468b1581d95e.r2.dev/src.zip

עברית
17
8
315
73.9K
Tom Zohar
Tom Zohar@tomzohar1·
@urieli17 לדעתי השימוש של זה הוא בעיקר לreal time monitoring, כי אחרת אין סיבה לעשות את זה online. עליה פתאומית של negative prompts יכולה להצביע על בעיה בזמן אמת.
עברית
0
0
2
56
Uri Eliabayev
Uri Eliabayev@urieli17·
עוד משהו מעניין יצא משם זה שבכל פעם שאתם מקללים את המודל והתוצאות שלו, קלוד קוד היה שומר את זה ומעביר לוגים הלאה. לקלוד לא היה אכפת, לצוות פיתוח כן. x.com/Rahatcodes/sta…
rahat@Rahatcodes

Claude Code has a regex that detects "wtf", "ffs", "piece of shit", "fuck you", "this sucks" etc. It doesn't change behavior...it just silently logs is_negative: true to analytics. Anthropic is tracking how often you rage at your AI Do with this information what you will

עברית
4
0
80
14K
Tom Zohar
Tom Zohar@tomzohar1·
@peleg_doron בגלל AI = אנחנו צריכים את הכסף של המשכורות שלהם כדי לקנות טוקנים/GPU
עברית
0
0
3
807
Doron Peleg
Doron Peleg@peleg_doron·
“פיטרנו 20,000 עובדים בגלל AI.” בטח. אני דווקא מנהל פרויקטים כאלה בפועל. תנו לי להראות מה באמת צריך לקרות כדי להחליף 1,000 עובדים ב-AI. 🧵
עברית
17
4
115
26.8K
Sam Altman
Sam Altman@sama·
I have so much gratitude to people who wrote extremely complex software character-by-character. It already feels difficult to remember how much effort it really took. Thank you for getting us to this point.
English
4.6K
2.2K
35.7K
5.7M
Tom Zohar
Tom Zohar@tomzohar1·
Wartime compute setup requirements to support remote school for 3 kids
Tom Zohar tweet media
English
0
0
0
210
Tom Zohar
Tom Zohar@tomzohar1·
@tsoofbaror מסכים מאוד, אך עם זאת המודלים כן יודעים לתת ציון בצורה אפקטיבית בהנחה שקיבלו הוראות מילוליות ברורות ויציבות. אם הואריאנס בין כמה ריצות דירוג של המודל גדול, אין הרבה ערך לתוצאות.
עברית
0
0
1
293
Tom Zohar
Tom Zohar@tomzohar1·
@PatrickHeizer So cancer is basically solved for dogs, just not yet for humans. Oh and every once in a while your dog might turn into a teenage mutant ninja dog.
Tom Zohar tweet media
English
0
0
0
91
Patrick Heizer
Patrick Heizer@PatrickHeizer·
Sorry to be the downer because this is an impressive story in some senses. But it is ~trivially easy to make a single mRNA vaccine. It's not hard. I cure mice of various cancers with various therapeutics all the time. I've made mice lose more weight in a month than tirzepatide does in a year. What is hard and expensive is proving its BOTH safe AND effective **in a randomized and controlled study in humans** while ALSO manufacturing it at clinical scale and grade. I am happy for this man and his dog. It is impressive. But y'all are overhyping it.
Séb Krier@sebkrier

This is wild. theaustralian.com.au/business/techn…

English
917
402
5.5K
5.1M
evtr
evtr@EvoLebo·
כן אחי תפתח את חדשות 12 על הטאבלט שלך במקלט חס וחלילה שתעבור עשר דקות בלי הקוקומלון לבני 35 שלך
עברית
38
57
2.9K
114.4K
Itay Ci
Itay Ci@CiItay·
קלוד נותן לי עכשיו מליון טוקנים בדיפולט. מומחי AI רוצים להגיד לי למה לא כדאי ללכת על זה בדיפולט? אני מנחש שזה יגרום לזה שאני אמשיך סשנים ארוכים מהצריך "ואשלם" יותר טוקנים על כל הקונטקסט המועמס המיותר?
עברית
18
0
41
12.9K
Tom Zohar
Tom Zohar@tomzohar1·
@ziv_ravid Autoresearch is currently a greedy hill-climber, but its true potential lies in structural evolution. If it adopted a DGM-style population archive to escape local optima, it could invent novel architectures instead of just tweaking hyperparameters. arxiv.org/pdf/2505.22954
English
0
0
2
229
Tom Zohar
Tom Zohar@tomzohar1·
@testestear יכול להיות שהוא רצה to over deliver. לא הייתי פוסל מיד אם הוא באמת accountable על הקוד כמו שביקשת, ושאר הדברים שאתה מחפש נמצאים שם.
עברית
0
0
10
3.3K
💻Testestear
💻Testestear@testestear·
מנפלאות ai ראיינתי מישהו השבוע גם מאוד רציתי להעביר אותו. נתתי לו משימת בית כמו שאנחנו נותנים לכולם, הוא שאל האם אפשר להשתמש באיי אמרתי לו כן בתנאי שהוא accountable על הקוד.
עברית
18
1
125
35.3K
Tom Zohar
Tom Zohar@tomzohar1·
@morandayan לספור חימושים זה כמו לספור impact ע״י ספירת שורות קוד של מתכנת. אימפקט אמיתי זה כזה שמקרב שלום.
עברית
0
0
0
93
Moran Dayan 🇮🇱🏳️‍🌈
למה זה צריך לעניין אותי כמה חימושים נורו ושזה יותר חימושים ממה שנורה מב׳עם כלביא׳?? די כבר עם הדיווחים הגאוותניים האלו! אני רוצה לדעת איך המלחמה הזאת מתקדמת, מתי היא נגמרת ואיך זה משפיע עליי.
עברית
1
0
2
105
Tom Zohar
Tom Zohar@tomzohar1·
@urieli17 (12 עוקבים מכינים דשבורד מחשב סיכויים על סמך מקורות מידע רנדומליים)
עברית
0
0
3
335
Uri Eliabayev
Uri Eliabayev@urieli17·
נגיד ויש מישהו שיש לו טיסה מאוד חשובה בעוד 13 ימים. מה הסיכוי שהיא תתקיים? כמה זמן לקח בפעם הקודמת מהרגע שסיימו את האירוע ועד שהטיסות (אל על) חזרו?
עברית
26
0
50
17.3K
Tom Zohar
Tom Zohar@tomzohar1·
@talitshe עניין בג׳יני הוא לא להיות יותר יעיל מבחינה חישובית ממנועי משחקים, אלא היכולת ליצור בצורה דינאמית סביבות מציאותיות שיהיה אפשר לאמן עליהם מודלים. deepmind.google/blog/sima-2-an…
עברית
1
0
1
89
טלית שכולה
טלית שכולה@talitshe·
קראתי עכשיו קצת על פרויקט Genie של גוגל, ואני תוהה: מה הרף שמעליו הדבר הזה הופך יותר יעיל, מבחינה חישובית, מ"סתם" מידול תלת-מימדי של העולם (כמו במנועי משחק קיימים)? מצבים של המון פרטים, המון פנים אנושיות, ...? deepmind.google/models/genie/
עברית
3
0
4
940