"*أداء استدلالي عبقري لـ حاصل جمع DeepSeek GRPO + Qwen 0.5 🚀🤯 (العمل متاح على" – aiNarabic 💭, February 2, 2025

*أداء استدلالي عبقري لـ حاصل جمع DeepSeek GRPO + Qwen 0.5 🚀🤯 (العمل متاح على Colab)* أصبحت تقنيات التعلم المعزز الآن في متناول الباحثين والمطورين أكثر من أي وقت مضى، وهو السبب وراء تدفق تفاعلات ومحاولات المطورين لبناء إضافات جديدة !! وفي هذا المنشور نستعرض واحدة من المذكرات الذكية والمبسطة منذ مطلع العام الحالي في تخصيص قوى الاستدلال ؛؛ شارك Pierre-Carl Langlais مذكرة كود لأقرب تطبيق عملي لدورة الـ post-training في R1 و O1، التي ترتكز على أسلوب التعلم المعزز عبر آلاف الأمثلة من مجموعة بيانات gsm8k 📊 ما سر هذه المذكرة 👇 ✴️عمل على استخدام خوارزمية GRPO من DeepSeek لتدريب نموذج Qwen 0.5B (500 مليون معلمة) وتحويله إلى آلة استدلال رياضي مصغرة في أقل من ساعتين فقط (صيني × صيني) ✴️ عمل على استخدام vLLM بدلاً من TRL inference الافتراضي، لتحسين سرعة التوليد بمقدار 10 أضعاف. ✴️ قام باختيار Qwen 0.5B لضمان أداء جيد على Google Colab. ✴️ تخلى عن بعض التقنيات غير الضرورية مثل Flash Attention، لتقليل استهلاك الموارد وتحقيق الاستفادة القصوى من المتاح. ~ أثبتت التجربة - كحال كثير من التجارب - أن النماذج الصغيرة والمخصصة يمكنها تحقيق أداء مذهل في الاستدلال !! رابط الـ Notebook 🔗 https://lnkd.in/guh4QKUU #الذكاء_الاصطناعي_بالعربي #ainarabic #mohd_n@SS

aiNarabic 💭

Comments