En las últimas noticias del mundo de la tecnología, OpenAI acaba de anunciar que ha integrado el generador de imágenes más avanzado hasta la fecha en su último modelo, GPT-4o. Sam Altman, CEO de OpenAI, compartió en la plataforma de redes sociales X su asombro al ver por primera vez las imágenes generadas por el modelo, calificándolas de increíbles y animando a los usuarios a dar rienda suelta a su creatividad.

image.png

Los puntos destacados de la nueva función incluyen:

- Capacidad para renderizar con precisión el contenido de texto, ofreciendo imágenes de alta calidad.

- Admite múltiples modos de entrada y salida, incluyendo texto, imágenes y audio.

- Entiende instrucciones complejas y combina el contexto para crear imágenes en primera persona con un alto grado de realismo.

A diferencia del modelo de generación de imágenes anterior, DALL・E, GPT-4o utiliza un modelo autorregresivo integrado de forma nativa en ChatGPT. Esto significa que puede manejar instrucciones complejas con hasta 10 a 20 objetos diferentes, mientras que los competidores suelen gestionar solo entre 5 y 8, demostrando una capacidad superior.

image.png

Los usuarios solo necesitan describir sus necesidades de forma concisa, como especificar la relación de aspecto, el color o un fondo transparente, y el modelo generará la imagen rápidamente. Aunque el renderizado de detalles complejos puede tardar un poco más, el resultado final merece la pena.

En una presentación, se mostraron varios ejemplos concretos. Por ejemplo, se convirtió una foto de grupo en una imagen de estilo anime; el modelo no solo conservó las características de las personas, sino que también integró a la perfección el efecto visual del anime. Además, se pidió que se generara una página de cómic humorístico sobre la relatividad, y el resultado fue un cómic con una estructura completa y divertido.

OpenAI también se toma muy en serio la seguridad de esta función; todas las imágenes generadas llevan una marca de metadatos C2PA para garantizar la trazabilidad del contenido y evitar la generación de solicitudes inapropiadas.

Por supuesto, la herramienta de generación de imágenes de OpenAI no está exenta de defectos; por ejemplo, todavía presenta deficiencias en el recorte, la comprensión del contexto y el renderizado de texto no latino. Sin embargo, OpenAI afirma que seguirá mejorando estos aspectos en el futuro.

Simultáneamente, Google también lanzó su potente modelo de IA Gemini 2.5 Pro Experimental, mostrando una mejora significativa en las capacidades de razonamiento y programación. Esta serie de eventos muestra que la competencia en el campo de la IA es cada vez más feroz, y los gigantes tecnológicos están lanzando continuamente tecnologías más avanzadas para luchar por el liderazgo en esta "guerra de la IA".