Un reciente estudio de la Universidad Técnica de Darmstadt, Alemania, revela un fenómeno preocupante: incluso los modelos de imágenes de IA más avanzados cometen errores significativos en tareas simples de razonamiento visual. Este hallazgo plantea nuevas preguntas sobre los estándares de evaluación de la capacidad visual de la IA.
El equipo de investigación utilizó los problemas de Bongard, diseñados por el científico ruso Michail Bongard, como herramienta de prueba. Estos rompecabezas visuales consisten en 12 imágenes simples, divididas en dos grupos, que requieren identificar la regla que diferencia a ambos grupos. Para la mayoría de las personas, esta tarea de razonamiento abstracto no es difícil, pero el rendimiento de los modelos de IA fue sorprendente.
Incluso el modelo multimodal GPT-4, considerado actualmente de vanguardia, solo resolvió 21 de 100 rompecabezas visuales. Otros modelos de IA conocidos, como Claude, Gemini y LLaVA, tuvieron un rendimiento aún peor. Estos modelos mostraron dificultades significativas para identificar líneas verticales y horizontales, o para determinar la dirección de una espiral, conceptos visuales básicos.
Los investigadores descubrieron que incluso con opciones múltiples, el rendimiento de los modelos de IA solo mejoró ligeramente. Solo al restringir estrictamente el número de posibles respuestas, la tasa de éxito de GPT-4 y Claude aumentó a 68 y 69 acertijos, respectivamente. Al analizar cuatro casos específicos, el equipo de investigación descubrió que los sistemas de IA a veces tenían problemas en el nivel de percepción visual básica, incluso antes de llegar a las etapas de "pensamiento" y "razonamiento", aunque la causa exacta sigue siendo incierta.
Esta investigación también ha generado una reflexión sobre los estándares de evaluación de los sistemas de IA. El equipo de investigación señala: "¿Por qué los modelos de lenguaje visual tienen un rendimiento excelente en las pruebas de referencia establecidas, pero tienen dificultades con los aparentemente simples problemas de Bongard? ¿Qué tan significativa es la utilidad de estas pruebas de referencia para evaluar la capacidad de razonamiento real?". Estas preguntas sugieren que el sistema actual de evaluación de la IA puede necesitar un rediseño para medir con mayor precisión la capacidad de razonamiento visual de la IA.
Este estudio no solo muestra las limitaciones de la tecnología de IA actual, sino que también indica la dirección del desarrollo futuro de la capacidad visual de la IA. Nos recuerda que, mientras celebramos los rápidos avances de la IA, también debemos ser conscientes de que aún queda mucho por mejorar en cuanto a las capacidades cognitivas básicas de la IA.