Amir Khalesi
2.1K posts

Amir Khalesi
@RetroMl
ML engineer - Trying to find out what is wrong with LLMs - e/acc - AI @ UT
انضم Mart 2020
516 يتبع529 المتابعون

قبل از قطع اینترنت میخواستم از زندگی کارمندی در بیام و بخاطر همین دو کار کسب و کاری مشترک، یکی تو ایران و یکی تو آلمان رو شروع کردم که قطعی اینترنت ترکوندش.
این سری دوباره برگشتم به کارمندی و با به شرکت خیلی خوب و بزرگ به توافق رسیدم و بعد از عید کارم رو شروع میکنم، فقط امیدوارم جنگ این سری خرابش نکنه.
Reza Jafari@rzdjafari
زیاد گفتن نداره تو این شرایط ولی این قطعی اینترنت همه جریانهای درآمدی من رو نابود کرد و صفر مطلق شدم نمیدونم کی میتونم دوباره احیاشون کنم
فارسی

@ontrader2022 @SarcasticPyDev من برای لپتاپ استفاده میکنم و بنظرم مدل تبلت و امکان ساپورتش رو سرچ کنید.
در کل اگر از طریق هاب قابلیت اتصال به مانیتور یا تلویزیون رو داشته باشه، با این کابل هم میتونه وصل بشه.
فارسی

@RetroMl @SarcasticPyDev دادش تبلت می تونم وصل کنم به تلویزیون و براش دسته بازی بخرم ؟
فارسی
Amir Khalesi أُعيد تغريده

@Mortal__98 حتی آفیسری که داره social media رو مانیتور میکنه هم با شنیدن این حرفت ناراحت شد :))
فارسی

Scaling up RL is all the rage right now, I had a chat with a friend about it yesterday. I'm fairly certain RL will continue to yield more intermediate gains, but I also don't expect it to be the full story. RL is basically "hey this happened to go well (/poorly), let me slightly increase (/decrease) the probability of every action I took for the future". You get a lot more leverage from verifier functions than explicit supervision, this is great. But first, it looks suspicious asymptotically - once the tasks grow to be minutes/hours of interaction long, you're really going to do all that work just to learn a single scalar outcome at the very end, to directly weight the gradient? Beyond asymptotics and second, this doesn't feel like the human mechanism of improvement for majority of intelligence tasks. There's significantly more bits of supervision we extract per rollout via a review/reflect stage along the lines of "what went well? what didn't go so well? what should I try next time?" etc. and the lessons from this stage feel explicit, like a new string to be added to the system prompt for the future, optionally to be distilled into weights (/intuition) later a bit like sleep. In English, we say something becomes "second nature" via this process, and we're missing learning paradigms like this. The new Memory feature is maybe a primordial version of this in ChatGPT, though it is only used for customization not problem solving. Notice that there is no equivalent of this for e.g. Atari RL because there are no LLMs and no in-context learning in those domains.
Example algorithm: given a task, do a few rollouts, stuff them all into one context window (along with the reward in each case), use a meta-prompt to review/reflect on what went well or not to obtain string "lesson", to be added to system prompt (or more generally modify the current lessons database). Many blanks to fill in, many tweaks possible, not obvious.
Example of lesson: we know LLMs can't super easily see letters due to tokenization and can't super easily count inside the residual stream, hence 'r' in 'strawberry' being famously difficult. Claude system prompt had a "quick fix" patch - a string was added along the lines of "If the user asks you to count letters, first separate them by commas and increment an explicit counter each time and do the task like that". This string is the "lesson", explicitly instructing the model how to complete the counting task, except the question is how this might fall out from agentic practice, instead of it being hard-coded by an engineer, how can this be generalized, and how lessons can be distilled over time to not bloat context windows indefinitely.
TLDR: RL will lead to more gains because when done well, it is a lot more leveraged, bitter-lesson-pilled, and superior to SFT. It doesn't feel like the full story, especially as rollout lengths continue to expand. There are more S curves to find beyond, possibly specific to LLMs and without analogues in game/robotics-like environments, which is exciting.
English

@jamshidpalang علی عزیز
اگر خاطرت باشه، چند تابستان به بهانه اردوی انجمن نخبگان / همگام در کنار هم بودیم.
با توجه به شناختی که ازت پیدا کردم، به هیچ وجه فردی نبودی و نیستی که به صرف استفاده از سهمیه به جایگاه فعلی رسیده باشی. به این صحبت ها توجه نکن، کسانی که باید به خوبی میشناسنت.
فارسی

@ibehnias @mamadou_gamedev @iSegar0 داشتم یه ترد انگلیسی میخوندم راجب ویدیوی کارمک، گفتم تگت کنم
یادم افتاد یچیزی تگم کردی، اومدم دیدم همینه :))
فارسی

pretty mind-blowing fact I just learned about transformer language models:
the positional embeddings don't really do anything. you can just get rid of them and the model still works just as well
sounds impossible, doesn't it?
turns out standard LLMs aren't actually permutation-invariant because of the causal mask. so they just learn somehow to "figure out" what position they're at by counting the number of tokens they can see at a given position
p crazy

English
Amir Khalesi أُعيد تغريده

@Nima_PhD_ پیاده سازی در لول بانکی در حال انجامه توسط تیم
اگر مقدثر بود خوشحال میشم همکاری داشته باشیم
فارسی

به یاری خدا احتمالا شنبه ۲۷م دفاع میکنیم.
✌️
آشفتهحال بیداربخت@Mortal__98
میدونم دلتون برام تنگ شده بود. 😇 من برگشتم و احتمالا قراره در چند ماه آینده با چسناله پایاننامه نوشتن و اپلای و این کصشرای زندگی فانی پارتون کنم. 🫦
فارسی

@127_0_0_2 سرفصلهاش و استادش رو میگی بهم؟
من اسلاید و اینا دارم، ولی اگه بخوای از بچههای دانشکده میتونم جور کنم واست
فارسی

@ThisIsDevSmith مهندس پیشبینی کردن و هزینهای نکردن که الان متضرر نشن دیگه :))
فارسی

آها اون وقت اون GPU هایی که براش خرج کردید کجان؟ :)
ابراهیم سوزنچی کاشانی@e_souzanchi
این deepseek عملا نشون داد پول کشور رو نباید بدون هدف خرج gpu کرد
فارسی








