OpenAI presentó hoy en una transmisión en vivo su esperado producto, Sora Turbo, marcando un gran avance en el campo de la IA generativa en 2024. Sora Turbo ofrece una eficiencia de generación significativamente mejorada, capaz de generar videos de 1080p de hasta 20 segundos directamente a partir de texto, convirtiéndose en uno de los modelos de video con mayor duración de generación a nivel mundial. El modelo admite la entrada de texto, imágenes o videos para generar contenido de video específico, lo que permite un mayor control sobre el resultado.

Los aspectos más destacados de la tecnología de Sora Turbo incluyen la superresolución, la superposición de fotogramas y la compatibilidad total con la gama de juegos HDR, además de dos mejoras de funciones de desarrollo propio basadas en GPU dedicadas. La función de interpolación de fotogramas dinámicos por toque mejora significativamente la precisión de la interpolación y reduce el daño de la imagen; mientras que el modo nocturno para juegos mejora los detalles en las zonas oscuras mediante algoritmos de IA, mejorando la visibilidad en la oscuridad y resolviendo problemas de brillo al jugar en entornos con poca luz.

微信截图_20241210074540.png

Actualmente, Sora está en una fase de uso ilimitado. Para los suscriptores de ChatGPT Plus y Pro, el uso de Sora es gratuito, una política considerada muy beneficiosa. OpenAI también ha desarrollado una nueva interfaz de usuario y ofrece un servicio para compartir en la comunidad, permitiendo a los usuarios compartir sus videos generados o aprender de las indicaciones de otros para mejorar sus propios trabajos.

Los principios tecnológicos de Sora incluyen la aplicación de Patch, que permite un entrenamiento intensivo en una gran cantidad de datos de imágenes y videos, y la aplicación de una red de compresión de video que reduce la dimensionalidad de los datos visuales y mejora la calidad de salida.

Sora también fusiona modelos de difusión con la arquitectura Transformer, empleando un innovador método de transformador difusivo que reemplaza la arquitectura U-Net tradicional, mejorando eficazmente la capacidad de capturar la relación de distribución entre las imágenes de entrada y las etiquetas de texto. Además, Sora incorpora la tecnología de subtitulado de DALL・E 3, entrenando un modelo de subtítulos altamente descriptivo para crear subtítulos de texto para todos los videos del conjunto de entrenamiento, mejorando la fidelidad del texto y la calidad general del video.

Dirección de acceso: https://sora.com/