Kürzlich hat das KI-Unternehmen Rhymes AI sein fortschrittliches Text-zu-Video-Modell Allegro offiziell Open Source veröffentlicht. Allegro ermöglicht es Nutzern, einfache Textbeschreibungen in hochwertige kurze Videoclips umzuwandeln und eröffnet neue Möglichkeiten für Schöpfer, Entwickler und Forscher im Bereich der KI-generierten Videos.

Allegro kann auf Basis von Textprompts 6 Sekunden lange Videos mit 15 Bildern pro Sekunde und einer Auflösung von 720p generieren. Es deckt eine Vielzahl von Filmthemen ab, von Nahaufnahmen von Personen und Tieren bis hin zu Actionszenen in verschiedenen Umgebungen – praktisch jede textbasierte Szene ist möglich.

Die Kerntechnologie von Allegro umfasst die Verarbeitung großer Videodatenmengen, die Komprimierung von Rohvideos in visuelle Tokens und einen erweiterten Video-Diffusions-Transformer.

Bei der Verarbeitung großer Videodatenmengen hat Rhymes AI eine systematische Datenverarbeitungs- und Filterpipeline entwickelt, um Trainingsvideos aus Rohdaten zu extrahieren. Ein strukturiertes Datensystem ermöglicht die mehrdimensionale Klassifizierung und Clusterbildung der Daten, um das Modelltraining und -feintuning zu vereinfachen.

Für die Komprimierung von Videos in visuelle Tokens verwendet Allegro einen Video-Variational-Autoencoder (VideoVAE), um Rohvideos in kleinere visuelle Tokens zu komprimieren. Dies ermöglicht eine flüssigere und effizientere Videogenerierung, während wichtige Details erhalten bleiben. Der VideoVAE basiert auf einem vorab trainierten Bild-VAE und erweitert die räumlich-zeitliche Modellierungsschicht, um die räumlichen Komprimierungsfähigkeiten effektiv zu nutzen.

Beim erweiterten Video-Diffusions-Transformer bildet der erweiterte Diffusions-Transformer-Aufbau den Kern von Allegro. Er verwendet Diffusionsmodelle, um hochauflösende Videobilder zu generieren und die Qualität und den flüssigen Ablauf der Videobewegung zu gewährleisten. Das Hauptnetzwerk von Allegro basiert auf der DiT-Architektur (Diffusions-Transformer) mit 3D-RoPE-Positions-Einbettungen und einem 3D-vollständigen Aufmerksamkeitsmechanismus. Im Vergleich zu traditionellen Diffusionsmodellen mit UNet-Architektur ist die Transformer-Struktur besser für die Skalierung des Modells geeignet. Durch die Nutzung des 3D-Aufmerksamkeitsmechanismus kann DiT sowohl die räumliche Dimension der Videobilder als auch deren zeitliche Entwicklung gleichzeitig verarbeiten und so ein detaillierteres Verständnis von Bewegung und Kontext ermöglichen.

Rhymes AI erklärt, dass Allegro nur der Anfang ist. Das Team entwickelt aktiv weitere fortschrittliche Funktionen, darunter die Bild-zu-Video-Generierung, die Bewegungssteuerung und die Unterstützung für die Generierung längerer, narrativer Videos im Storyboard-Stil.

Um die KI-gestützte Videoproduktion für ein breiteres Publikum zugänglich zu machen, veröffentlicht Rhymes AI die Modellgewichte und den Code von Allegro als Open Source und ermutigt die Community, die Kreativität zu entfesseln, aufzubauen und gemeinsam Fortschritte in der Technologie der KI-generierten Videos zu erzielen.

Projekt-Adresse: https://github.com/rhymes-ai/Allegro