Este artículo presenta un experimento de generación de imágenes y texto adversario utilizando GPT-4 y DALL-E 3 para probar las limitaciones de ambos modelos en el manejo de imágenes borrosas. El autor ingresó una imagen borrosa de un "toro-tiburón", pidiendo a GPT-4 que la describiera. La descripción se le proporcionó a DALL-E 3 para que la dibujara, y la imagen resultante se volvió a introducir en GPT-4 para su descripción, repitiendo este ciclo. Los resultados mostraron que GPT-4 no pudo determinar si la imagen borrosa era un toro o un tiburón, y las imágenes generadas por DALL-E 3 mostraron contradicciones internas. Este experimento explora el uso de pruebas cíclicas para examinar a fondo las limitaciones de la comprensión y generación de imágenes y texto en modelos de lenguaje grandes.
GPT-4 y DALL-E 3 no pueden determinar si el objeto en la imagen es una "vaca" o un "tiburón"

夕小瑶科技说
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.