Récemment, la société d'intelligence artificielle Rhymes AI a officiellement rendu open source son modèle avancé de génération de vidéos à partir de texte, Allegro. Allegro permet aux utilisateurs de convertir de simples descriptions textuelles en courts extraits vidéo de haute qualité, ouvrant ainsi de nouvelles possibilités aux créateurs, développeurs et chercheurs dans le domaine de la génération de vidéos par intelligence artificielle.

Allegro peut générer des vidéos de haute qualité de 6 secondes, à 15 images par seconde et à une résolution de 720p, en fonction des invites textuelles fournies par l'utilisateur. Il couvre une variété de thèmes cinématographiques, des gros plans de personnages et d'animaux aux actions dans divers contextes, permettant de réaliser presque n'importe quelle scène basée sur une description textuelle.

Les technologies clés d'Allegro incluent le traitement de données vidéo à grande échelle, la compression de vidéos brutes en jetons visuels et un transformateur de diffusion vidéo étendu.

En ce qui concerne le traitement de données vidéo à grande échelle, Rhymes AI a conçu un pipeline de traitement et de filtrage des données système pour extraire les vidéos d'entraînement à partir des données brutes. Un système de données structurées a également été développé pour classer et regrouper les données en plusieurs dimensions, facilitant ainsi l'entraînement et l'ajustement fin du modèle.

Pour la compression de vidéos en jetons visuels, Allegro utilise un auto-encodeur variationnel vidéo (VideoVAE) pour compresser les vidéos brutes en jetons visuels plus petits, tout en conservant les détails nécessaires, permettant ainsi une génération vidéo plus fluide et plus efficace. Le VideoVAE est basé sur un VAE d'image pré-entraîné et étend les couches de modélisation spatio-temporelle, exploitant efficacement les capacités de compression spatiale.

Concernant le transformateur de diffusion vidéo étendu, le cœur d'Allegro est son architecture de transformateur de diffusion étendue. Il utilise un modèle de diffusion pour générer des images vidéo haute résolution, garantissant la qualité et la fluidité du mouvement vidéo. Le réseau principal d'Allegro est basé sur l'architecture DiT (Diffusion Transformer), avec un plongement de position 3D RoPE et un mécanisme d'attention globale 3D. Comparé aux modèles de diffusion traditionnels utilisant une architecture UNet, l'architecture Transformer est plus favorable à l'extensibilité du modèle. En utilisant le mécanisme d'attention 3D, le DiT peut traiter simultanément la dimension spatiale des images vidéo et leur évolution temporelle, permettant ainsi une compréhension plus fine du mouvement et du contexte.

Rhymes AI indique qu'Allegro n'est qu'un début, et que l'équipe développe activement des fonctionnalités plus avancées, notamment la génération d'image à vidéo, le contrôle du mouvement et la prise en charge de la génération de vidéos plus longues, narratives et de style storyboard.

Pour rendre la création vidéo pilotée par l'IA plus accessible à un public plus large, Rhymes AI a rendu open source les poids du modèle et le code d'Allegro, encourageant ainsi la communauté à explorer, à libérer sa créativité et à construire sur cette base, afin de réaliser des progrès collaboratifs dans le domaine de la génération de vidéos par intelligence artificielle.

Adresse du projet : https://github.com/rhymes-ai/Allegro