معايير مفتوحة المصدر لتقييم قدرة نماذج الذكاء الاصطناعي على تصفح الويب وتنفيذ المهام المعقدة بشكل مستقل.