OpenAI a dévoilé aujourd'hui lors d'une diffusion en direct son produit très attendu, Sora Turbo, marquant une avancée majeure dans le domaine de l'IA générative en 2024. Sora Turbo offre une efficacité de génération considérablement améliorée, capable de générer directement à partir de texte des vidéos 1080p d'une durée maximale de 20 secondes, faisant de lui l'un des modèles vidéo les plus performants au monde en termes de durée de génération. Ce modèle prend en charge l'entrée de texte, d'images ou de vidéos pour générer un contenu vidéo spécifique, permettant un meilleur contrôle du résultat.
Les points forts techniques de Sora Turbo incluent le sur-échantillonnage, l'hyper-framerate et la prise en charge complète des jeux HDR, ainsi que deux améliorations de fonctionnalités propriétaires basées sur des cartes graphiques dédiées. Parmi celles-ci, la fonction d'interpolation d'images dynamiques par contact améliore considérablement la précision de l'interpolation et réduit les artefacts ; le mode nuit pour les jeux améliore les détails dans les zones sombres grâce à un algorithme d'IA, améliorant la visibilité dans les zones sombres et résolvant ainsi les problèmes de luminosité lors de jeux en faible éclairage.
Sora est actuellement disponible en accès illimité. Pour les abonnés ChatGPT Plus et Pro, l'utilisation de Sora est gratuite, une politique considérée comme très avantageuse. OpenAI a également développé une nouvelle interface utilisateur et propose un service de partage communautaire, permettant aux utilisateurs de partager leurs vidéos générées ou de s'inspirer des invites des autres pour améliorer leurs propres créations.
Le principe technique de Sora repose sur l'application de Patch, permettant un entraînement intensif sur un grand nombre de données images et vidéos, ainsi que sur l'utilisation d'un réseau de compression vidéo pour réduire la dimensionnalité des données visuelles et améliorer la qualité de sortie.
Sora combine également les modèles de diffusion et l'architecture Transformer, utilisant une méthode innovante de transformateur diffusif pour remplacer l'architecture U-Net traditionnelle, améliorant ainsi efficacement la capacité de capture des relations de distribution entre les images d'entrée et les étiquettes textuelles. De plus, Sora intègre la technologie de sous-titrage de DALL·E 3, en entraînant un modèle de sous-titres hautement descriptif pour créer des sous-titres textuels pour toutes les vidéos de l'ensemble d'entraînement, améliorant ainsi la fidélité du texte et la qualité globale de la vidéo.
Adresse d'accès : https://sora.com/