نماذج ذكاء اصطناعي قادرة على معالجة وفهم المعلومات البصرية (الصور والفيديو) والنصوص في آن واحد، مما يتيح للأجهزة فهم العالم المادي.