"لو تتعامل مع مشاريع vllm وOCR هذه النموذج الجديد من AI2 لك 🚀🤯 تتطور تقنيات VL" – aiNarabic 💭, February 27, 2025

لو تتعامل مع مشاريع vllm وOCR هذه النموذج الجديد من AI2 لك 🚀🤯 تتطور تقنيات VL Models وOCRs بإيقاع متسارع، حيث نشهد يوما بعد يوم تقدماً يدفع بحدود وقدرات أنظمتها إلى الأمام؛ واليوم حديثنا عن نموذج [ olmOCR ] من AI2 الذي يتيح استخراج النصوص من المستندات والصور بحرفية عالية (تجربة شخصية) !! ✴️ قادر على استخراج النصوص من المستندات المعقدة التي تحتوي على أعمدة، وجداول، ومعادلات، وحتى نصوص مكتوبة بخط اليد. (جيد مع المكتوبات اليدوية العربية الواضحة) ✴️ يعالج أكثر من 3000 رمز/ثانية، (ما يجعله فعالا في استخراج النصوص من المستندات.) ✴️ النموذج olmOCR مدرّب على 250,000 صفحة من مستندات متنوعة (رقمية وممسوحة ضوئياً). ✴️ تم الاعتماد على تقنية Document Anchoring لاستخراج النصوص والبيانات الوصفية بدقة (أسلوب يعتمد على الجمع بين بيانات PDF الوصفية وصور الصفحات لإنشاء بيانات تدريب دقيقة بمساعدة GPT-4o.) ✴️ أكثر كفاءة استهلاكية من GPT-4o (يعادل 190 دولارًا لكل مليون صفحة، أي أرخص بـ 32 مرة من GPT-4o عند تشغيله بكميات كبيرة) ✴️ مخرجات بتنسيق Markdown 📝 لتبسيط التعامل معها وتحليلها في التطبيقات المختلفة. ✴️ تم بناؤه وتخصيصه على Qwen2-VL-7B-Instruct، كما يستخدم مكتبة Transformers من Hugging Face. ✴️ تحسين الأداء أثناء الاستدلال باستخدام SGLang + FlashInfer + vLLM لتسريع عمليات المعالجة. ✴️ أداء استثنائي بتقييم ELO +1800، متفوقاً على Marker و GOT-OCR2.0 و MinerU في دقة استخراج النصوص. ✴️ يمكن تشغيله محليا على GPU مجانًا (يعتبر خيارا قويًا للشركات والمطورين) ــــــــــــ تجربة olmOCR مباشرة 🔗 https://olmocr.allenai.org 🔹 المدونة الرسمية 🔗 https://lnkd.in/gRRTbAZA 🔹 الكود البرمجي والتدريب 🔗 https://lnkd.in/gT9YG8g9 🔹 مجموعة النموذج على Hugging Face 🔗 https://lnkd.in/g8bjipGG #الذكاء_الاصطناعي_بالعربي #ainarabic #mohd_n@SS

aiNarabic 💭

Comments