
ورا أي Benchmark قوي الـ Dataset اللي انبنى عليها!
مشان نطلع بنتائج دقيقة ومحايدة لتقييم نماذج تحويل الصوت لنص (ASR)، كان الاعتماد على dataset مخصصة ومبنية من الصفر لهاد التقرير
والأرقام بتحكي عن حالها:
حجم الداتا: أكثر من 11 ساعة صوتية (2,340 مقطع).
التنوع الإقليمي: 4 لهجات رئيسية (شامية، مصرية، حجازية، نجدية).
تنوع واقعي: أخدنا مقاطع من بودكاست، أخبار، وحوارات ببيئات مختلفة (صوت نظيف، ضجة، موسيقى، أصوات بعيدة) ومن فئات عمرية مختلفة للذكور والإناث.
بس النقطة الأهم هون؟
التفريغ الصوتي (Ground Truth) انعمل يدوياً 100% بواسطة مدققين بشر ، بدون أي تدخل أو مساعدة من نماذج AI.
ليش هاد مهم؟ مشان نمنع أي انحياز (Bias) لنظام معين وتكون المنافسة عادلة وصافية.
نتائج أي benchmark محكومة بالـ dataset تبعها. لو الداتا اللي عم تختبر عليها ما بتشبه الـ Production Use Case تبعك بالواقع.. ترتيب النماذج وأرقامها ما رح تعنيلك شي.
التفاصيل كاملة وكيف تمت الاختبارات بتلاقوها بالتقرير الشامل هون:
linkedin.com/posts/aixplain…

العربية








