المصادر الأساسية: - إعلان Project Genie (Google Blog): - Project Genie: Experimenting with infinite, interactive worlds - صفحة Genie 3 (DeepMind): - Genie 3 — a general-purpose world model
أعلنت Google (عبر Google DeepMind وGoogle Labs) عن Project Genie: نموذج/تجربة بحثية تتيح للمستخدم إنشاء عالم تفاعلي من نص أو صورة، ثم استكشافه فورًا وكأنه بيئة يمكن التجول فيها. التجربة مبنية على نموذج DeepMind المعروف باسم Genie 3 (نموذج “عالم” World Model)، وتستهدف في المرحلة الحالية مستخدمي Google AI Ultra داخل الولايات المتحدة (18+)، مع خطة للتوسع لاحقًا.
أهم فكرة هنا: العالم لا يتم توليده كفيديو نهائي ثم يُعرض عليك، بل يُولد لحظيًا أثناء الحركة—أي أن النموذج “يرسم الطريق أمامك” لحظة بلحظة بينما تستكشف وتلتفت وتغير زاوية الكاميرا.
مصطلح World Model يعني نموذجًا يحاول تمثيل “ديناميكيات البيئة”: كيف تتغير الأشياء مع الزمن، وكيف تؤثر أفعال الوكيل (أو المستخدم) على ما يحدث لاحقًا. في سياق الذكاء الاصطناعي، هذه الفكرة مهمة لأنها تشبه “الخيال” أو “المحاكاة الذهنية”: قبل أن تتصرف، تتخيل النتائج وتختار أفضل قرار.
وفق صفحة Genie 3، النموذج يقدم:
تفاعل بالزمن الحقيقي بسرعة تقريبية 20–24 إطارًا في الثانية.
جودة شبه فوتوغرافية (Photorealistic) بدقة 720p.
ثبات/اتساق في العالم: التفاصيل التي رأيتها سابقًا يمكن أن تظهر ثانية عند العودة.
عالم قابل للاستكشاف من وصف نصي (ومع Project Genie أيضًا من صور).
هذه النقطة (الاتساق والقدرة على “الالتفات للخلف” دون أن ينهار المشهد) تُعد من أكثر ما يميّز هذا الاتجاه، لأنها كانت نقطة ضعف شائعة في كثير من تجارب “الفيديو التوليدي” عندما نحاول تحويله إلى بيئة تفاعلية.
المشكلة مع كثير من عروض الفيديو التوليدي أنها “مبهرة” لكنها سلبية: تشاهد ولا تتدخل. Project Genie يسعى لتحويل الأمر إلى تجربة فاعلة:
أنت لا “تتفرج” على فيديو؛ أنت تتحرك.
النموذج لا ينتج مقطعًا ثابتًا مسبقًا؛ بل يولّد المسار في الزمن الحقيقي بناءً على ما تفعل.
يمكن “إعادة مزج” العوالم: تبدأ من عالم موجود، ثم تغيّر الـprompt لتنتج نسخة جديدة.
بمعنى آخر: هذا أقرب إلى “محرك عالم” تَوليدي، ولو أنه لا يزال تجريبيًا.
Google تقول إن Project Genie هو تطبيق ويب تجريبي مدعوم بـ:
Genie 3 كنموذج عالم.
نماذج مساعدة لتوليد/تعديل الصور قبل الدخول للعالم.
Gemini للمساعدة في التفاعل والتوجيه.
وتذكر ثلاث قدرات رئيسية:
1) رسم العالم (World Sketching) - تكتب وصفًا أو ترفع صورة لتحديد “نبرة” العالم. - تختار منظور التجربة (شخص أول/ثالث). - تحدد أسلوب الحركة (مشي/قيادة/طيران…).
2) استكشاف العالم (World Exploration) - تتحرك داخل العالم، ومع كل حركة يولّد النموذج ما أمامك لحظيًا.
3) إعادة المزج (World Remixing) - تعديل عالم موجود بإضافة/تغيير prompt. - استلهام عوالم من معرض/عشوائي. - تنزيل فيديوهات لما استكشفته.
من السهل أن نختزل الفكرة في “صناعة ألعاب بالذكاء الاصطناعي”، لكن تعليقًا شائعًا في نقاش Hacker News حول الخبر لفت إلى نقطة أعمق: العوالم التفاعلية هنا قد تكون واجهة بشرية لمفهوم أكبر اسمه المحاكاة.
إذا امتلكت بيئة توليدية قادرة على خلق سيناريوهات متنوعة بسرعة، يمكنك تدريب وكلاء على:
الملاحة واتخاذ القرار.
التعامل مع مواقف نادرة (حوادث/فشل/ظروف استثنائية) يصعب جمع بياناتها من العالم الحقيقي.
اختبار سياسات تحكم قبل تطبيقها على أجهزة فعلية.
حتى إن كانت الفيزياء “غير مثالية”، فإن الوصول إلى 50% من محاكاة جيدة قد يقلل تكلفة التطوير بشكل كبير—خصوصًا إذا كانت المحاكاة تنتج تنوعًا واسعًا.
DeepMind تذكر أمثلة مثل تمكين الطلاب من استكشاف عصور تاريخية (مثل روما القديمة) داخل بيئات تفاعلية. الفكرة هنا ليست “دقة تاريخية مطلقة” بقدر ما هي تعلم بالاستكشاف بدل القراءة فقط.
هناك زاوية واضحة لصناعة المحتوى: عوالم قابلة للزيارة بدل مشاهد ثابتة. هذا قد يفتح مسارًا جديدًا للقصص التفاعلية أو “نماذج أولية” سريعة لكونٍ خيالي قبل إنتاجه في فيلم/لعبة.
Google توضح أن هذا نموذج بحثي مبكر، وبالتالي هناك حدود واضحة:
العالم قد لا يلتزم دائمًا بالـprompt أو بالفيزياء الواقعية.
التحكم بالشخصية/الحركة قد يتأثر بزمن استجابة أو “ثِقل” في التحكم.
في Project Genie هناك حد للمدة (ذكرت Google قيودًا مثل 60 ثانية في التجربة الحالية).
ومن صفحة Genie 3 أيضًا، هناك قيود بحثية أعمق:
مساحة أفعال محدودة للوكلاء.
صعوبة نمذجة تفاعلات عدة وكلاء مستقلين في نفس البيئة بدقة.
عدم القدرة على محاكاة مواقع واقعية بدقة تامة.
إظهار النصوص داخل العالم ليس دائمًا واضحًا (إلا إذا كان النص ضمن وصف العالم).
مدة التفاعل المستمر ما تزال محدودة (دقائق، لا ساعات طويلة).
هذه القيود مهمة لأنها تضع الخبر في إطاره الصحيح: خطوة كبيرة… لكنها ليست “واقعًا بديلًا” كاملًا بعد.
بحسب Google، الوصول يبدأ لمشتركي Google AI Ultra في الولايات المتحدة عبر:
ومعلومات إضافية عن Genie 3:
إذا نجح هذا الاتجاه، فسنرى سباقًا في ثلاث جهات:
1) زيادة الاتساق وطول مدة التفاعل (من دقائق إلى ساعات). 2) توسيع مساحة الأفعال (أفعال أكثر تعقيدًا من “المشي/النظر”). 3) دمج أدوات خارجية (بحث/خرائط/نماذج فيزيائية/مصادر بيانات) لتقليل الهلوسة وجعل العوالم أقرب للواقع عندما نحتاج ذلك.
والأهم: حتى لو كانت التطبيقات الترفيهية هي “الواجهة” التي يفهمها الناس، فقد تكون الفائدة الكبرى في الخلفية: بيئات تدريب ومحاكاة للوكلاء، تمكّن AI من اتخاذ قرارات أفضل عبر “التخيل” بدل التجربة في العالم الحقيقي.
المصادر:
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
https://deepmind.google/models/genie/