GPT-4 y DALL-E 3 no pueden determinar si el objeto en la imagen es una "vaca" o un "tiburón"

夕小瑶科技说

Publicado elNoticias de IA · 2 minutos de lectura · Oct 18, 2023

Este artículo presenta un experimento de generación de imágenes y texto adversario utilizando GPT-4 y DALL-E 3 para probar las limitaciones de ambos modelos en el manejo de imágenes borrosas. El autor ingresó una imagen borrosa de un "toro-tiburón", pidiendo a GPT-4 que la describiera. La descripción se le proporcionó a DALL-E 3 para que la dibujara, y la imagen resultante se volvió a introducir en GPT-4 para su descripción, repitiendo este ciclo. Los resultados mostraron que GPT-4 no pudo determinar si la imagen borrosa era un toro o un tiburón, y las imágenes generadas por DALL-E 3 mostraron contradicciones internas. Este experimento explora el uso de pruebas cíclicas para examinar a fondo las limitaciones de la comprensión y generación de imágenes y texto en modelos de lenguaje grandes.

Luma AI acelera la generación de imágenes diez veces con su tecnología de preentrenamiento IMM de código abierto

¿Alguna vez has sentido que los modelos de imágenes entrenados con grandes cantidades de datos son terriblemente lentos al generar imágenes de alta calidad? No te preocupes, Luma AI recientemente ha lanzado una tecnología de preentrenamiento de modelos de imágenes llamada Inductive Moment Matching (IMM), ¡que supuestamente permite a los modelos generar imágenes de alta calidad con una velocidad increíblemente rápida! ¿Estancamiento de algoritmos? ¡Luma AI rompe el techo! En los últimos años, la comunidad de IA ha experimentado...

¡Lanzamiento impactante! Se revela el proceso completo de la tecnología de generación de imágenes a partir de texto de Doubao; Seedream 2.0 revoluciona el sector

Hoy, el equipo del modelo de lenguaje grande Doubao ha publicado oficialmente un informe técnico sobre la tecnología de generación de imágenes a partir de texto, revelando por primera vez los detalles técnicos del modelo de generación de imágenes Seedream 2.0, que abarca la construcción de datos, el marco de preentrenamiento y el flujo de trabajo completo de RLHF posterior al entrenamiento. Esto supone una bomba en el campo de la generación de imágenes a partir de texto. Seedream 2.0, desde su lanzamiento a principios de diciembre de 2024 en la aplicación Doubao y en Jimeng, ha prestado servicio a cientos de millones de usuarios finales y ha ganado el favor de diseñadores profesionales. En comparación con modelos líderes como Ideogram 2.0 y Midjourney V6.1, ofrece...

智谱发布首个支持生成汉字的开源文生图模型CogView4

Beijing Zhihuazhang Technology Co., Ltd. ha anunciado el lanzamiento de CogView4, el primer modelo de generación de imágenes a partir de texto de código abierto que admite la generación de caracteres chinos. Este modelo ocupa el primer lugar en la clasificación general de las pruebas de referencia DPG-Bench, convirtiéndose en el mejor modelo de generación de imágenes a partir de texto de código abierto (SOTA), y sigue el protocolo Apache2.0, siendo el primer modelo de generación de imágenes que admite este protocolo.

Noticias de IA

GPT-4 y DALL-E 3 no pueden determinar si el objeto en la imagen es una "vaca" o un "tiburón"

夕小瑶科技说

Noticias de IA relacionadas recomendadas

Luma AI acelera la generación de imágenes diez veces con su tecnología de preentrenamiento IMM de código abierto

¡Lanzamiento impactante! Se revela el proceso completo de la tecnología de generación de imágenes a partir de texto de Doubao; Seedream 2.0 revoluciona el sector

Flujo de silicio: modelos no registrados fuera de línea. Los usuarios deben tener en cuenta la migración

智谱发布首个支持生成汉字的开源文生图模型CogView4