العقل الثاني العلني
Second Mind — gpt4ar

إطلاق GLM-OCR: نموذج صامت وبحجم 0.9B يحطم أرقام استخراج البيانات المعقدة

2026-02-03العودةالزيارات: 5
#مميز

أعلنت شركة Z.ai (المعروفة بابتكاراتها في عائلة نماذج Zhipu/GLM) عن إطلاق نموذجها الجديد GLM-OCR، وهو نموذج رؤية حاسوبية متخصص في "فهم المستندات" (Document Understanding) وتحويلها إلى بيانات مهيكلة.

المثير في هذا الإعلان ليس فقط الدقة العالية، بل الكفاءة المذهلة؛ حيث يبلغ حجم النموذج 0.9 مليار بارامتر فقط (0.9B)، مما يجعله قابلاً للتشغيل على الأجهزة الشخصية والهواتف الذكية بسهولة، ومع ذلك يحقق نتائج تتفوق على عمالقة مثل Gemini 3 Pro و GPT-5.2 في مهام محددة.

قدرات خارقة في حجم صغير

يركز GLM-OCR على حل المعضلات التقليدية في تقنيات الـ OCR (التعرف البصري على الحروف)، ومن أبرز ميزاته:

  • فهم الجداول (Table Recognition): القدرة على قراءة الجداول المعقدة والمتداخلة وتحويلها إلى صيغ برمجية (مثل JSON أو Markdown) بدقة متناهية.

  • المعادلات الرياضية (Formula Recognition): التعرف على الرموز الرياضية والفيزيائية المعقدة وتحويلها إلى كود LaTeX.

  • استخراج المعلومات (Information Extraction): تحويل الفواتير، الاستمارات اليدوية، والمستندات الرسمية إلى بيانات قابلة للبحث والمعالجة.

تنبيه بخصوص اللغة العربية: رغم التفوق التقني لهذا النموذج في المهام اللاتينية والرياضية، إلا أن التجارب الأولية تشير إلى أن دعمه للغة العربية لا يزال ضعيفاً ومحدوداً مقارنة باللغات الأخرى، لذا يجب توخي الحذر عند استخدامه في أتمتة المستندات العربية الصرفة.

تحطيم الأرقام القياسية (Benchmarks)

وفقاً للبيانات التي نشرتها Z.ai، يتصدر النموذج عدة مؤشرات أداء عالمية:

  • في اختبار OmniDocBench v1.5 (الخاص بتنسيق المستندات)، حقق النموذج 94.6 نقطة.

  • في اختبار OCRBench، حقق 94.0 نقطة، متفوقاً بفارق شاسع على DeepSeek-OCR2.

  • أظهر أداءً مذهلاً في قراءة الخطوط اليدوية (Handwritten Forms) بنسبة 86.1%.

لماذا يمثل هذا الخبر أهمية قصوى؟

يمثل GLM-OCR نهاية عصر "النماذج الضخمة لكل شيء". نحن ننتقل الآن إلى عصر النماذج المتخصصة (Specialized Models) التي تقوم بمهمة واحدة ببراعة فائقة وبتكلفة حوسبة لا تذكر. هذا النوع من التقنيات هو ما سيمكن "الوكلاء" (Agents) مستقبلاً من قراءة ملفاتنا، فواتيرنا، وأوراقنا البحثية لحظياً وبخصوصية تامة دون الحاجة لإرسال البيانات إلى سحابة مركزية.

يمكن للمطورين والباحثين الوصول إلى أوزان الموديل وتجربته عبر منصة Hugging Face.

📥 تنزيل بصيغة Markdown