
aiNarabic 💭
February 27, 2025 at 02:39 PM
لو تتعامل مع مشاريع vllm وOCR هذه النموذج الجديد من AI2 لك 🚀🤯
تتطور تقنيات VL Models وOCRs بإيقاع متسارع، حيث نشهد يوما بعد يوم تقدماً يدفع بحدود وقدرات أنظمتها إلى الأمام؛ واليوم حديثنا عن نموذج [ olmOCR ] من AI2 الذي يتيح استخراج النصوص من المستندات والصور بحرفية عالية (تجربة شخصية) !!
✴️ قادر على استخراج النصوص من المستندات المعقدة التي تحتوي على أعمدة، وجداول، ومعادلات، وحتى نصوص مكتوبة بخط اليد. (جيد مع المكتوبات اليدوية العربية الواضحة)
✴️ يعالج أكثر من 3000 رمز/ثانية، (ما يجعله فعالا في استخراج النصوص من المستندات.)
✴️ النموذج olmOCR مدرّب على 250,000 صفحة من مستندات متنوعة (رقمية وممسوحة ضوئياً).
✴️ تم الاعتماد على تقنية Document Anchoring لاستخراج النصوص والبيانات الوصفية بدقة (أسلوب يعتمد على الجمع بين بيانات PDF الوصفية وصور الصفحات لإنشاء بيانات تدريب دقيقة بمساعدة GPT-4o.)
✴️ أكثر كفاءة استهلاكية من GPT-4o (يعادل 190 دولارًا لكل مليون صفحة، أي أرخص بـ 32 مرة من GPT-4o عند تشغيله بكميات كبيرة)
✴️ مخرجات بتنسيق Markdown 📝 لتبسيط التعامل معها وتحليلها في التطبيقات المختلفة.
✴️ تم بناؤه وتخصيصه على Qwen2-VL-7B-Instruct، كما يستخدم مكتبة Transformers من Hugging Face.
✴️ تحسين الأداء أثناء الاستدلال باستخدام
SGLang + FlashInfer + vLLM
لتسريع عمليات المعالجة.
✴️ أداء استثنائي بتقييم ELO +1800، متفوقاً على Marker و GOT-OCR2.0 و MinerU في دقة استخراج النصوص.
✴️ يمكن تشغيله محليا على GPU مجانًا (يعتبر خيارا قويًا للشركات والمطورين)
ــــــــــــ
تجربة olmOCR مباشرة 🔗
https://olmocr.allenai.org
🔹 المدونة الرسمية 🔗
https://lnkd.in/gRRTbAZA
🔹 الكود البرمجي والتدريب 🔗
https://lnkd.in/gT9YG8g9
🔹 مجموعة النموذج على Hugging Face 🔗
https://lnkd.in/g8bjipGG
#الذكاء_الاصطناعي_بالعربي
#ainarabic
#mohd_n@SS
❤️
4