أحدثت شركة OpenAI هزة عنيفة في سوق الذكاء الاصطناعي اليوم بإعلانها عن إطلاق نموذجها الأحدث والمخصص كلياً للوكلاء: GPT-5.3-Codex. هذا النموذج لا يمثل مجرد زيادة في السرعة، بل هو قفزة نوعية في كيفية تفاعل الذكاء الاصطناعي مع الأنظمة والملفات والأكواد البرمجية.
كشفت OpenAI عن مجموعة من الرسوم البيانية التي توضح الفوارق الجوهرية بين GPT-5.3-Codex والموديلات السابقة والمنافسة، وإليكم التفاصيل:
تعتبر مهام التحكم في سطح المكتب البصري هي "المعيار الذهبي" للوكلاء حالياً. أظهرت النتائج أن GPT-5.3-Codex حقق دقة تصل إلى 64.7%، وهو ما يقترب بشكل مذهل من متوسط الأداء البشري (72%)، ومتفوقاً بفارق هائل على GPT-5.2 الذي كان يقف عند حدود 38%.

في اختبار Terminal-Bench 2.0، والذي يقيس قدرة الموديل على تنفيذ أوامر النظام المعقدة، وصل GPT-5.3-Codex إلى دقة 77.3%. هذا التطور يعني أن الوكيل أصبح قادراً على إدارة السيرفرات وعمليات الـ DevOps بأخطاء شبه منعدمة مقارنة بالإصدارات السابقة.

إليك جدول شامل يوضح تفوق GPT-5.3-Codex (بوضعية xhigh) في مختلف التخصصات، من الأمن السيبراني إلى حل التحديات البرمجية المعقدة:

المفاجأة الأكبر كانت في اختبار SWE-Bench Pro، حيث أظهر الرسم البياني أن النموذج الجديد لا يحقق دقة أعلى فحسب، بل يفعل ذلك باستهلاك أقل للتوكنات. هذا يعني أن المطورين سيحصلون على نتائج أفضل بتكلفة أقل وسرعة استجابة أعلى بكثير.

سرعة أكبر بنسبة 25%: مقارنة بـ GPT-5.2-Codex.
الوكيل الذي بنى نفسه: كشفت OpenAI أن مهندسيها استخدموا النسخ الأولية من هذا النموذج لإصلاح أخطاء تدريبه ونشره.
تفاعل لحظي: إمكانية "توجيه" الوكيل أثناء العمل دون الحاجة لانتظار النتيجة النهائية.
بناء تطبيقات كاملة: قدرة النموذج على بناء ألعاب وتطبيقات معقدة من الصفر في أيام قليلة وبشكل مستقل تماماً.
الخلاصة: يضع GPT-5.3-Codex معياراً جديداً لما يمكن أن يفعله "الوكيل المستقل". المنافسة في وادي السيليكون انتقلت الآن من "من يتحدث بشكل أفضل" إلى "من ينفذ المهمة بدقة أكبر".
المصدر: OpenAI - المدونة الرسمية وتقارير الأداء التقني 2026.