Visual grounding يعني أن إجابة النموذج تُبنى على دليل بصري واضح (تكبير/قص/وضع علامات/عدّ) وليس على حدس عام. هو الفرق بين “أظن” و“تحققت”.