Este artículo presenta un experimento de generación de imágenes y texto adversario utilizando GPT-4 y DALL-E 3 para probar las limitaciones de ambos modelos en el manejo de imágenes borrosas. El autor ingresó una imagen borrosa de un "toro-tiburón", pidiendo a GPT-4 que la describiera. La descripción se le proporcionó a DALL-E 3 para que la dibujara, y la imagen resultante se volvió a introducir en GPT-4 para su descripción, repitiendo este ciclo. Los resultados mostraron que GPT-4 no pudo determinar si la imagen borrosa era un toro o un tiburón, y las imágenes generadas por DALL-E 3 mostraron contradicciones internas. Este experimento explora el uso de pruebas cíclicas para examinar a fondo las limitaciones de la comprensión y generación de imágenes y texto en modelos de lenguaje grandes.
GPT-4 y DALL-E 3 no pueden determinar si el objeto en la imagen es una "vaca" o un "tiburón"
