
الذكاء الاصطناعي AI
February 14, 2025 at 07:01 PM
أطلقت مختبرات غاليليو Galileo للتو لوحة سباق جديدة لوكيل الذكاء الاصطناعي لتصنيف مدى فعالية النماذج في التعامل مع تفاعلات الأدوات في العالم الحقيقي، مع ظهور Gemini 2.0 من Google و GPT-4o من OpenAI لأول مرة في المراكز الأولى في التقييم.
قامت لوحة المتصدرين بتقييم 17 من أفضل LLMs على 14 معيارا، بما في ذلك اختبارات على استخدام الأدوات واختيارها، والسياق الطويل، والتفاعلات المعقدة، والمزيد.
قاد فلاش 2.0 بدرجة 0.938، متفوقا على المنافسين الأكثر تكلفة مع التفوق في جميع المجالات في المعايير.
تعمل النماذج مفتوحة المصدر على سد الفجوة، حيث يحقق أحدث إصدار صغير من ميسترال Mistral درجات مماثلة لبعض العروض المتميزة بأسعار أقل.
كانت طرازات DeepSeek's V3 وR1 غائبة عن الاختبار بسبب عدم وجود وظيفة استدعاء الدعم ولكن سيتم تضمينها إذا تمت إضافة القدرات.