پن کیا گیا ٹویٹ
Omar
18.3K posts

Omar
@O2mar_
أهلًا بك مجدداً | خبير دبلوماسي ، اقتصادي ، رياضي،كوميدي، متحلطم اجتماعي….etc
شامل ہوئے Temmuz 2022
957 فالونگ5.2K فالوورز
Omar ری ٹویٹ کیا

من أكثر الأوراق البحثية انتشارًا في مجتمع الذكاء الاصطناعي هذا الشهر وبداية هذا العام كانت ورقة تتحدث عن التسارع الكبير في قدرات نماذج الذكاء الاصطناعي والطلب المتزايد على تدريبها، حيث بدأنا نقترب من مشكلة شهيرة صارت تُعرف باسم “جدار البيانات (Data Wall)”: البيانات العامة عالية الجودة على الإنترنت تقترب من النفاد، بينما احتياج النماذج إلى البيانات يستمر بالتوسع
لفترة طويلة كان الافتراض العام في تدريب نماذج اللغة: انه كلما زدنا عدد وحدات التدريب (tokens) تحسّن النموذج (ولا يزال هذا صحيحًا جزئيًا في بعض الحالات)، لكن الواقع اليوم يفرض تحوّلًا مهمًا: المعادلة بدأت تنتقل من “المزيد من وحدات (tokens)” إلى “وحدات أفضل (tokens)” (المقصود بيانات ذات جودة افضل)
عنوان الورقة:
OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration
فكرة الورقة بشكل مباشر: كثير من الحلول الحالية للتعامل مع “جدار البيانات” تقع في مسارين، وكلاهما غير كافي لوحده:
- المسار الأول (Static Filters): تنظيف/تصنيف البيانات قبل التدريب لاستبعاد الغير مرغوب بهم. مشكلته أنه قرار ثابت لا يتكيّف مع تغيّر احتياج النموذج عبر مراحل التدريب.
- المسار الثاني (Dynamic Selection): اختيار البيانات أثناء التدريب بناءً على مؤشرات سهلة القياس مثل الخسارة (loss function) أو “اتجاه التعلّم” الخام (raw gradients). المشكلة أن قرار التحديث الحقيقي في التدريب لا يعتمد على هذه الإشارات بشكل مباشر، لأنه يمر عبر المُحسّن (optimizer مثل AdamW) الذي يغيّر شكل واتجاه التحديث
اقتراح الورقة (Optimizer-aware): بدل الاعتماد على الخسارة فقط، تقترح الورقة اختيار العيّنات بحسب أثرها الحقيقي على التعلّم بعد المُحسّن (optimizer-aware): أي نختار البيانات التي تدفع النموذج “فعليًا” نحو التحسّن، مع تجنّب تكرار عينات متشابهة داخل الدفعة للحفاظ على التنوع.
تصوّر مبسّط:
بدل ما التدريب يستهلك بياناته بشكل عشوائي، الورقة تقترح إضافة “طبقة اختيار” داخل التدريب: في كل خطوة تُراجع مجموعة عينات قصيرة من البيانات وتختار فقط العينات التي تُعطي أكبر تحسّن فعلي للنموذج الآن (وتتجنب العينات المتشابهة). النتيجة: تدريب على بيانات أقل لكن أثرها أعلى.
النتائج كانت واضحة في جانب “الكفاءة”: في تجربة Qwen3-8B-Base على SciencePedia، حققت الورقة نتائج أفضل باستخدام 500 مليون وحدة تدريب (tokens) بدل 3 مليار وحدة أي بيانات أقل بحوالي 6×، وهذا يترجم عمليا إلى حوسبة أقل، وقت تدريب أقل، وتكلفة أقل مع أداء أعلى
الورقة تتجاوز 40 صفحة وفيها تفاصيل تقنية وتجارب كثيرة حاولت هنا تلخيص الفكرة الأساسية بأكبر قدر ممكن من الوضوح. إذا يهمك التعمّق أو الاطلاع على الأرقام والمنهجية كاملة، أنصح بقراءتها مباشرة:
arxiv.org/pdf/2602.05400

العربية










