Agentic Vision في Gemini 3 Flash: عندما تتحول الرؤية من لقطة واحدة إلى تحقيق خطوة بخطوة

2026-01-29•العودة

تحت المراجعة

AI Gemini Multimodal Agents Developer Tools

المصدر الأساسي (Google Blog / DeepMind): https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/

لماذا هذا الخبر مهم الآن؟

معظم نماذج الرؤية متعددة الوسائط (Multimodal) تتعامل مع الصورة كأنها “نظرة واحدة” ثابتة: ترى المشهد وتجيب. المشكلة تظهر فورًا عندما تكون المعلومة المطلوبة تفصيلًا صغيرًا—رقم تسلسلي على شريحة، لافتة بعيدة في شارع، نصًا صغيرًا داخل مخطط معقد، أو جدولًا كثيف الأرقام. في هذه الحالات، النموذج قد يُجبر على التخمين أو يخلط بين تفاصيل متقاربة، فتأتي الإجابة واثقة لكنها غير دقيقة.

هنا تأتي فكرة Agentic Vision في Gemini 3 Flash: بدل أن تكون الرؤية “لحظة”، تصبح عملية تحقيق. النموذج لا يكتفي بمشاهدة الصورة مرة واحدة، بل يضع خطة، ويجرب خطوات (مثل القصّ والتكبير والتدوير ووضع علامات) ثم يعيد النظر في الأدلة التي أنتجها بنفسه قبل أن يقرر الإجابة. هذه النقلة تبدو بسيطة، لكنها تغيّر طبيعة أخطاء الرؤية جذريًا: من “حدس احتمالي” إلى “استدلال مبني على أدلة بصرية متراكمة”.

ما هي Agentic Vision بالضبط؟ (Think / Act / Observe)

بحسب Google DeepMind، Agentic Vision تضيف حلقة عمل وكيلة داخل مهمة فهم الصورة:

Think (فكّر): النموذج يحلل سؤال المستخدم والصورة، ثم يبني خطة متعددة الخطوات بدل إجابة فورية.
Act (نفّذ): النموذج يولّد ويُنفّذ كود Python للتعامل مع الصورة: قصّ مناطق محددة، تكبير، تدوير، رسم مربعات/وسوم، العدّ، أو إجراء حسابات مرتبطة بما يراه.
Observe (لاحظ): الصورة المُعدّلة أو النتائج تُضاف إلى سياق النموذج، فيراها ثانية بشكل أوضح ويكمل التحقيق حتى يصل لإجابة نهائية.

الفكرة الجوهرية هنا هي “تأريض” الإجابة (Grounding) في دليل بصري: النموذج لا يقول “أعتقد أنه كذا”، بل يبني سلسلة خطوات تُقربه فعليًا من التفاصيل التي قد تفوته.

القيمة المضافة: تقليل التخمين + رفع الدقة

Google تذكر أن تفعيل تنفيذ الكود (Code Execution) مع Gemini 3 Flash يقدم تحسنًا ثابتًا بنحو 5–10% عبر معظم اختبارات الرؤية (vision benchmarks). هذه نسبة كبيرة في سياق مهام الرؤية لأن أغلب الأخطاء تأتي من:

1) تفاصيل دقيقة لم تُلتقط من أول نظرة. 2) عمليات حسابية متعددة الخطوات تعتمد على ما داخل الصورة (جداول/قياسات/عدّ عناصر). 3) ضعف القدرة على “إثبات” ما تم رؤيته أو تتبّعه بصريًا.

ببساطة: Agentic Vision تحاول تحويل الرؤية إلى مسار أقرب لعمل الإنسان عندما “يدقق”: تكبير، قصّ، مقارنة، عدّ، ثم قرار.

أمثلة عملية ذكرتها Google (ولماذا هي مهمة)

1) التكبير والفحص المتكرر (Zoom & Inspect)

في حالات الصور الكبيرة عالية الدقة—مثل مخططات البناء أو خرائط أو صور شرائح—اللقطة الواحدة غالبًا ليست كافية. الفائدة هنا أن النموذج يختار بنفسه مناطق الفحص ويجرب قصّها وإدخالها إلى السياق من جديد.

تذكر Google مثالًا لمنصة PlanCheckSolver.com المتخصصة في التحقق من مخططات البناء، حيث أدى استخدام هذه الآلية إلى تحسن بالدقة بنحو 5% بعد تفعيل تنفيذ الكود، عبر فحص أجزاء محددة مثل حواف الأسطح أو أقسام البناء، خطوة بخطوة.

2) التعليق على الصورة (Image Annotation) كـ“دفتر ملاحظات بصري”

بدل أن يصف ما يرى فقط، يستطيع النموذج أن يرسم على الصورة: مربعات حول العناصر، ترقيم، أو وسوم. هذا مهم لأنه يخلق “سجلًا بصريًا” لما عدّه أو تعرّف عليه.

تذكر Google مثال عدّ الأصابع: لتجنب أخطاء العد، يرسم النموذج مربعات ووسوم فوق كل إصبع ثم يُخرج النتيجة بناءً على هذا التتبع.

3) رياضيات بصرية + رسم (Visual Math & Plotting)

في الجداول الكثيفة أو الرسومات التي تتطلب حسابًا، غالبًا ما تهلوس النماذج لأنها تحاول إجراء الحساب “داخل اللغة” بدل تنفيذ حسابات حقيقية. هنا يقوم Gemini 3 Flash باستخراج الأرقام ثم استخدام Python لإجراء الحسابات ورسم مخطط (مثل Matplotlib)، ما يجعل النتيجة قابلة للتحقق بدل كونها تخمينًا.

“Agentic Vision” كاتجاه: ماذا يعني ذلك للسوق؟

هذا الخبر لا يتعلق بميزة واحدة فقط، بل بإشارة اتجاه أكبر: نماذج الرؤية تتجه لتصبح “وكلاء” (Agents) داخل مهمة الإدراك نفسها.

للشركات: هذا يرفع قيمة حالات الاستخدام التي كانت محفوفة بالمخاطر بسبب تفاصيل دقيقة: فواتير/إيصالات، مستندات ممسوحة ضوئيًا، مخططات هندسية، صور منتجات، مراقبة جودة… إلخ.
للمطورين: يفتح تصميم تطبيقات جديدة تعتمد على “سلسلة خطوات” بدل “طلب واحد”: تدقيق وثائق، استخراج بيانات مع تحقق، أو مساعد بصري يوضح لك أين وجد المعلومة.
للجمهور العام: يقلل حالات “الإجابة الواثقة والخاطئة” في قراءة النصوص الصغيرة أو التفاصيل الدقيقة في الصور.

ما القادم بحسب Google؟

تشير Google إلى ثلاثة مسارات تطوير قادمة:

1) جعل المزيد من السلوكيات “ضمنية” بالكامل: اليوم التكبير غالبًا ضمني، بينما التدوير أو بعض المهام قد تحتاج تحفيزًا صريحًا في الـprompt. 2) إضافة أدوات أكثر لتأريض الفهم: مثل البحث على الويب والبحث العكسي عن الصور. 3) توسيع الميزة إلى أحجام نماذج أخرى، وليس Flash فقط.

كيف تجرّبه الآن؟

Agentic Vision متاح عبر:

Gemini API داخل Google AI Studio وVertex AI.
ويبدأ بالوصول إلى تطبيق Gemini عبر خيار Thinking.

روابط مهمة للبدء (مُنسّقة لتُعرض بشكل صحيح على الجوال):

خلاصة سريعة

Agentic Vision في Gemini 3 Flash هي خطوة نحو “رؤية قابلة للتحقق”: النموذج لا يكتفي بأن يرى، بل يفتش ويجرب ويعيد النظر في الصورة عبر خطوات مدعومة بالكود، ما يرفع الدقة ويقلل التخمين—خصوصًا في التفاصيل الدقيقة والجداول والمهام الحسابية البصرية. إذا ثبت هذا النهج على نطاق واسع، فسنرى انتقالًا من “نماذج ترى” إلى “نماذج تحقق وتثبت”.

المصدر الأساسي: https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/

مفاهيم للتوسّع (روابط مباشرة)

📥 تنزيل بصيغة Markdown