Amir Khalesi

2.1K posts

Amir Khalesi banner
Amir Khalesi

Amir Khalesi

@RetroMl

ML engineer - Trying to find out what is wrong with LLMs - e/acc - AI @ UT

参加日 Mart 2020
516 フォロー中530 フォロワー
Reza Jafari
Reza Jafari@rzdjafari·
قبل از قطع اینترنت می‌خواستم از زندگی کارمندی در بیام و بخاطر همین دو کار کسب و کاری مشترک، یکی تو ایران و یکی تو آلمان رو شروع کردم که قطعی اینترنت ترکوندش. این سری دوباره برگشتم به کارمندی و با به شرکت خیلی خوب و بزرگ به توافق رسیدم و بعد از عید کارم رو شروع می‌کنم، فقط امیدوارم جنگ‌ این سری خرابش نکنه.
Reza Jafari@rzdjafari

زیاد گفتن نداره تو این شرایط ولی این قطعی اینترنت همه جریان‌های درآمدی من رو نابود کرد و صفر مطلق شدم نمی‌دونم کی می‌تونم دوباره احیاشون کنم

فارسی
5
1
161
31K
Amir Khalesi
Amir Khalesi@RetroMl·
@_soeil کدوم هال و کجا هستین یه سر بیایم پیشتون؟
فارسی
0
0
0
204
گوگل‌کُنِ باحقوق
شما سخت افزارو نگا با لبات بازی میکنه امسال با لوکا در نورث استار جیتکس هستیم اگه اینجایی یه سر به ما بزن اصفهان، کیلومتر900 جاده شیراز محل دائمی نمایشگاه‌های بین‌المللی دبی مارینا
فارسی
4
0
92
18K
Amir Khalesi
Amir Khalesi@RetroMl·
@ontrader2022 @SarcasticPyDev من برای لپتاپ استفاده میکنم و بنظرم مدل تبلت و امکان ساپورتش رو سرچ کنید. در کل اگر از طریق هاب قابلیت اتصال به مانیتور یا تلویزیون رو داشته باشه، با این کابل هم میتونه وصل بشه.
فارسی
1
0
1
72
Soroush Moosapour
Soroush Moosapour@SarcasticPyDev·
بچه ها کسی با usb hub تایپ C از خروجی HDMI استفاده کرده؟ میخوام افزایش تعداد مانیتور بدم و دارم میگردم
فارسی
24
0
65
4.3K
Amir Khalesi がリツイート
atlas
atlas@creatine_cycle·
here is what happens when you take creatine: - 5gs: bigger muscles - 15gs: bigger brain - 70gs: replace sleep - 88gs: remote viewing - 120gs: agentic workflows
English
192
570
15.1K
928.3K
Amir Khalesi
Amir Khalesi@RetroMl·
@Mortal__98 حتی آفیسری که داره social media رو مانیتور میکنه هم با شنیدن این حرفت ناراحت شد :))
فارسی
1
0
2
91
Andrej Karpathy
Andrej Karpathy@karpathy·
Scaling up RL is all the rage right now, I had a chat with a friend about it yesterday. I'm fairly certain RL will continue to yield more intermediate gains, but I also don't expect it to be the full story. RL is basically "hey this happened to go well (/poorly), let me slightly increase (/decrease) the probability of every action I took for the future". You get a lot more leverage from verifier functions than explicit supervision, this is great. But first, it looks suspicious asymptotically - once the tasks grow to be minutes/hours of interaction long, you're really going to do all that work just to learn a single scalar outcome at the very end, to directly weight the gradient? Beyond asymptotics and second, this doesn't feel like the human mechanism of improvement for majority of intelligence tasks. There's significantly more bits of supervision we extract per rollout via a review/reflect stage along the lines of "what went well? what didn't go so well? what should I try next time?" etc. and the lessons from this stage feel explicit, like a new string to be added to the system prompt for the future, optionally to be distilled into weights (/intuition) later a bit like sleep. In English, we say something becomes "second nature" via this process, and we're missing learning paradigms like this. The new Memory feature is maybe a primordial version of this in ChatGPT, though it is only used for customization not problem solving. Notice that there is no equivalent of this for e.g. Atari RL because there are no LLMs and no in-context learning in those domains. Example algorithm: given a task, do a few rollouts, stuff them all into one context window (along with the reward in each case), use a meta-prompt to review/reflect on what went well or not to obtain string "lesson", to be added to system prompt (or more generally modify the current lessons database). Many blanks to fill in, many tweaks possible, not obvious. Example of lesson: we know LLMs can't super easily see letters due to tokenization and can't super easily count inside the residual stream, hence 'r' in 'strawberry' being famously difficult. Claude system prompt had a "quick fix" patch - a string was added along the lines of "If the user asks you to count letters, first separate them by commas and increment an explicit counter each time and do the task like that". This string is the "lesson", explicitly instructing the model how to complete the counting task, except the question is how this might fall out from agentic practice, instead of it being hard-coded by an engineer, how can this be generalized, and how lessons can be distilled over time to not bloat context windows indefinitely. TLDR: RL will lead to more gains because when done well, it is a lot more leveraged, bitter-lesson-pilled, and superior to SFT. It doesn't feel like the full story, especially as rollout lengths continue to expand. There are more S curves to find beyond, possibly specific to LLMs and without analogues in game/robotics-like environments, which is exciting.
English
408
835
8.4K
1.1M
Amir Khalesi
Amir Khalesi@RetroMl·
@jamshidpalang علی عزیز اگر خاطرت باشه، چند تابستان به بهانه اردوی انجمن نخبگان / همگام در کنار هم بودیم. با توجه به شناختی که ازت پیدا کردم، به هیچ‌ وجه فردی نبودی و نیستی که به صرف استفاده از سهمیه به جایگاه فعلی رسیده باشی. به این صحبت ها توجه نکن، کسانی که باید به خوبی میشناسنت.
فارسی
2
0
51
8.2K
Amir Khalesi
Amir Khalesi@RetroMl·
@ibehnias @mamadou_gamedev @iSegar0 داشتم یه ترد انگلیسی میخوندم راجب ویدیوی کارمک، گفتم تگت کنم یادم افتاد یچیزی تگم کردی، اومدم دیدم همینه :))
فارسی
1
0
2
781
dr. jack morris
dr. jack morris@jxmnop·
pretty mind-blowing fact I just learned about transformer language models: the positional embeddings don't really do anything. you can just get rid of them and the model still works just as well sounds impossible, doesn't it? turns out standard LLMs aren't actually permutation-invariant because of the causal mask. so they just learn somehow to "figure out" what position they're at by counting the number of tokens they can see at a given position p crazy
dr. jack morris tweet media
English
78
119
1.7K
185.1K
Amir Khalesi
Amir Khalesi@RetroMl·
@Mortal__98 پسر خبر رو‌ خوندم اولین کسی که یادم افتاد تو بودی :(
فارسی
1
0
0
129
Amir Khalesi がリツイート
Eldar Kurtić
Eldar Kurtić@_EldarKurtic·
Quantization in the era of reasoning models: How does quantization impact the reasoning capabilities of DeepSeek-R1 models across distilled Llama and Qwen families? 👇 Check the thread for two surprising findings in evaluations of these models!
Eldar Kurtić tweet media
English
12
55
312
52K
Amir Khalesi
Amir Khalesi@RetroMl·
@Nima_PhD_ پیاده سازی در لول بانکی در حال انجامه توسط تیم اگر مقدثر بود خوشحال میشم همکاری داشته باشیم
فارسی
0
0
0
100
Core Francisco Park @ NeurIPS2025
💥New Paper! Algorithmic Phases of In-Context Learning: We show that transformers learn a superposition of different algorithmic solutions depending on the data diversity, training time and context length! 1/n
Core Francisco Park @ NeurIPS2025 tweet media
English
7
61
426
37.2K
Amir Khalesi
Amir Khalesi@RetroMl·
@Nikolaona فرقی نمیکنه منم ZAA دارم و نزدیک امیرکبیر فعاله
فارسی
1
0
0
265
Sanguine(Ali)™
Sanguine(Ali)™@Nikolaona·
از پارت نامبر آیفون هایی که معمولا تو ایران هست کدوماشون 5Gشون فعال هست؟ CHA ZAA LLA ...
فارسی
3
0
8
1.4K
Amir Khalesi
Amir Khalesi@RetroMl·
@s7az2mm ۶۰۰۰ ساعت herald 3 با من از سابقه صحبت نکن :))
فارسی
0
0
1
879
Amir Khalesi
Amir Khalesi@RetroMl·
@127_0_0_2 سرفصل‌هاش و استادش رو میگی بهم؟ من اسلاید و اینا دارم، ولی اگه بخوای از بچه‌های دانشکده میتونم جور کنم واست
فارسی
1
0
0
87
Amir Khalesi
Amir Khalesi@RetroMl·
@ThisIsDevSmith مهندس پیشبینی کردن و هزینه‌ای نکردن که الان متضرر نشن دیگه :))
فارسی
0
0
0
71