OpenAI lanza un nuevo modelo de generación de imágenes que desafía a la edición de imágenes con una sola frase de Google

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Mar 26, 2025

En las últimas noticias del mundo de la tecnología, OpenAI acaba de anunciar que ha integrado el generador de imágenes más avanzado hasta la fecha en su último modelo, GPT-4o. Sam Altman, CEO de OpenAI, compartió en la plataforma de redes sociales X su asombro al ver por primera vez las imágenes generadas por el modelo, calificándolas de increíbles y animando a los usuarios a dar rienda suelta a su creatividad.

Los puntos destacados de la nueva función incluyen:

- Capacidad para renderizar con precisión el contenido de texto, ofreciendo imágenes de alta calidad.

- Admite múltiples modos de entrada y salida, incluyendo texto, imágenes y audio.

- Entiende instrucciones complejas y combina el contexto para crear imágenes en primera persona con un alto grado de realismo.

A diferencia del modelo de generación de imágenes anterior, DALL・E, GPT-4o utiliza un modelo autorregresivo integrado de forma nativa en ChatGPT. Esto significa que puede manejar instrucciones complejas con hasta 10 a 20 objetos diferentes, mientras que los competidores suelen gestionar solo entre 5 y 8, demostrando una capacidad superior.

Los usuarios solo necesitan describir sus necesidades de forma concisa, como especificar la relación de aspecto, el color o un fondo transparente, y el modelo generará la imagen rápidamente. Aunque el renderizado de detalles complejos puede tardar un poco más, el resultado final merece la pena.

En una presentación, se mostraron varios ejemplos concretos. Por ejemplo, se convirtió una foto de grupo en una imagen de estilo anime; el modelo no solo conservó las características de las personas, sino que también integró a la perfección el efecto visual del anime. Además, se pidió que se generara una página de cómic humorístico sobre la relatividad, y el resultado fue un cómic con una estructura completa y divertido.

OpenAI también se toma muy en serio la seguridad de esta función; todas las imágenes generadas llevan una marca de metadatos C2PA para garantizar la trazabilidad del contenido y evitar la generación de solicitudes inapropiadas.

Por supuesto, la herramienta de generación de imágenes de OpenAI no está exenta de defectos; por ejemplo, todavía presenta deficiencias en el recorte, la comprensión del contexto y el renderizado de texto no latino. Sin embargo, OpenAI afirma que seguirá mejorando estos aspectos en el futuro.

Simultáneamente, Google también lanzó su potente modelo de IA Gemini 2.5 Pro Experimental, mostrando una mejora significativa en las capacidades de razonamiento y programación. Esta serie de eventos muestra que la competencia en el campo de la IA es cada vez más feroz, y los gigantes tecnológicos están lanzando continuamente tecnologías más avanzadas para luchar por el liderazgo en esta "guerra de la IA".

Boletín diario de IA: OpenAI lanza tres nuevos modelos de voz; la búsqueda de Kuaishou integra completamente DeepSeek R1; Claude activa la función de búsqueda en línea

¡Bienvenido al apartado de "Boletín diario de IA"! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las aplicaciones innovadoras de productos de IA. Conozca los nuevos productos de IA aquí: https://top.aibase.com/1、OpenAI presenta el nuevo modelo de transcripción de voz gpt-4o-transcribe, con una precisión de voz a texto significativamente mejorada. OpenAI lanzó recientemente tres nuevos modelos de voz, a saber:

OpenAI lanza el nuevo modelo de transcripción de voz gpt-4o-transcribe: precisión mejorada en la conversión de voz a texto

Tras generar cierto interés en el campo de la IA de voz, OpenAI no ha dejado de explorar en este ámbito. El creador de ChatGPT vuelve a la carga con tres nuevos modelos de voz de desarrollo propio: gpt-4o-transcribe, gpt-4o-mini-transcribe y gpt-4o-mini-tts. El más destacado es gpt-4o-transcribe. Actualmente, estos nuevos modelos ya están...

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...

Nuevo modelo de OpenAI: gpt-4o-2024-08-06 y gpt-4o-mini con soporte para salida estructurada

OpenAI ha añadido una función de salida estructurada a su API, garantizando que la salida generada cumpla completamente con la estructura JSON predefinida. Esto mejora significativamente la fiabilidad de la API y la precisión de las aplicaciones. Esta función no solo define la estructura del JSON, sino que también asegura la exactitud de la salida. Simultáneamente, se ha reducido el precio; el coste de entrada se ha reducido a la mitad y el coste de salida en un tercio. La introducción de la salida estructurada resuelve las limitaciones del esquema JSON en cuanto a garantizar que la salida se ajuste a una estructura específica, mejorando notablemente el rendimiento del modelo en la salida estructurada. Gracias a innovaciones tecnológicas, como la limitación...

OpenAI lanza el nuevo modelo gpt-4o-64k-output-alpha: GPT-4o API ahora admite hasta 64K de salida

El punto más destacado del nuevo modelo gpt-4o-64k-output-alpha de OpenAI es su capacidad para generar una salida de hasta 64K tokens a la vez, ideal para contenido extenso y detallado, cubriendo necesidades en escritura, programación y análisis de datos complejos. Sin embargo, esta funcionalidad incrementa el precio de la API, con un coste de 18 dólares por millón de tokens de salida, en comparación con los 6 dólares por millón de tokens de entrada. Esta medida busca compensar los altos costes computacionales y fomentar el uso responsable de esta potente herramienta. El modelo es una gran ayuda para la creación y la investigación.

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General