Los modelos de lenguaje visual (VLMs), seguramente ya los habréis oído mencionar. Estos pequeños genios de la IA no solo entienden texto, sino que también pueden "ver" imágenes. Pero la realidad es algo diferente. Hoy vamos a analizarlos a fondo y ver si realmente "ven" las imágenes como nosotros.
Primero, una breve explicación de qué son los VLMs. En pocas palabras, son modelos de lenguaje de gran tamaño, como GPT-4o y Gemini-1.5Pro, que destacan en el procesamiento de imágenes y texto, incluso obteniendo altas puntuaciones en muchas pruebas de comprensión visual. Pero no nos dejemos engañar por estas altas puntuaciones; hoy vamos a ver si realmente son tan buenos.
Los investigadores diseñaron una prueba llamada BlindTest, con 7 tareas extremadamente sencillas para los humanos. Por ejemplo, determinar si dos círculos se superponen, si dos líneas se cruzan o contar cuántos círculos hay en el logotipo de los Juegos Olímpicos. ¿Parece una tarea para niños de preescolar, verdad? Pues bien, el rendimiento de los VLMs no es tan impresionante.
Los resultados son sorprendentes: la precisión media de estos supuestos modelos avanzados en BlindTest es solo del 56,20%, y el mejor, Sonnet-3.5, alcanza solo el 73,77%. Es como si un estudiante que supuestamente aprueba las pruebas de acceso a las universidades más prestigiosas no pudiera resolver problemas de matemáticas de primaria.
¿Por qué ocurre esto? Según los investigadores, es posible que los VLMs procesen las imágenes como si tuvieran miopía, sin ver los detalles. Aunque pueden percibir la tendencia general de la imagen, se quedan bloqueados cuando se trata de información espacial precisa, como si dos formas se cruzan o se superponen.
Por ejemplo, cuando se les pidió a los VLMs que determinaran si dos círculos se superponían, se descubrió que, incluso si los círculos eran tan grandes como sandías, los modelos no podían responder con una precisión del 100%. Además, su rendimiento al contar los círculos del logotipo olímpico deja mucho que desear.
Lo más interesante es que los investigadores descubrieron que estos VLMs parecen tener una preferencia especial por el número 5 al contar. Por ejemplo, cuando el número de círculos en el logotipo olímpico supera los 5, tienden a responder "5", probablemente porque están familiarizados con los 5 círculos del logotipo.
En resumen, ¿habéis cambiado de opinión sobre estos VLMs aparentemente sofisticados? En realidad, tienen muchas limitaciones en la comprensión visual y están lejos de alcanzar el nivel humano. Así que, la próxima vez que alguien diga que la IA puede reemplazar completamente a los humanos, podéis sonreír con ironía.
Enlace al artículo: https://arxiv.org/pdf/2407.06581
Página del proyecto: https://vlmsareblind.github.io/