Recientemente, OpenAI ha anunciado una noticia destacada: además de la función de generación de video ya lanzada en su proyecto Sora en pruebas internas, también están desarrollando a toda marcha una función de generación de imágenes. Esta nueva función permitirá a los usuarios cambiar rápidamente entre la generación de video e imágenes, aumentando la flexibilidad creativa.
Según información interna, Sora añadirá un botón de cambio oculto; los usuarios solo tendrán que seleccionarlo en la barra de indicaciones para cambiar entre los dos modos. Al seleccionar la generación de imágenes, el sistema automáticamente solicitará al usuario que describa una imagen. Este diseño pretende simplificar la operación del usuario y mejorar la relevancia y la calidad del contenido generado.
Además de la mejora en la función de generación de imágenes, Sora también ha recategorizado su sistema de transmisión de videos. Las nuevas categorías "Mejor" y "Principales" ayudarán a los usuarios a filtrar y encontrar contenido más fácilmente. La categoría "Mejor" es similar a los canales destacados actuales, mientras que la categoría "Principales" probablemente clasifique los videos según el número de "me gusta" o el período de tiempo. Este cambio en la clasificación genera mucha expectativa sobre el mecanismo de recomendación de contenido de Sora.
Para los usuarios de DALL-E3, esta noticia es sin duda emocionante, ya que DALL-E3 se ha vuelto algo obsoleto desde su lanzamiento, especialmente en comparación con competidores como Midjourney. Aunque la función de generación de imágenes de Sora aún no se ha lanzado oficialmente, la categoría "Imágenes Internas" en la barra de navegación izquierda ha despertado la curiosidad de los usuarios. Si bien actualmente esta categoría se utiliza principalmente para la transmisión de videos, en el futuro también podría ofrecer contenido relacionado con la generación de imágenes.
Algunos especulan que este nuevo modelo de generación de imágenes podría llamarse DALL-E4, aunque OpenAI aún no lo ha confirmado. Expertos de la industria conjeturan que el generador de imágenes de Sora podría no usar directamente DALL-E4, sino que dependería del modelo existente "sora-turbo". Además, los expertos señalan que ChatGPT aún no ha lanzado una función de generación de imágenes multimodales basada en GPT-4o, por lo que el lanzamiento del proyecto Sora representa un nuevo avance digno de atención.
Cabe destacar que el generador de imágenes a partir de texto en Sora se conoce con el nombre en clave "papaya", lo que genera mucha curiosidad y expectativa sobre este proyecto. Un año y medio después del lanzamiento de DALL-E3, la pregunta sobre qué innovaciones traerá la próxima generación de modelos es algo que todos quieren descubrir.