ChinaZ.com (站长之家) meldete am 17. Juni: Die Peking-Universität und das KI-Team von Kuaishou haben gemeinsam die komplexe Videogenerierung gemeistert. Sie präsentierten ein neues Framework namens VideoTetris, das verschiedene Details wie ein Puzzle zusammenfügt und so die Generierung hochkomplexer Videos ermöglicht. Dieses Framework übertrifft in der Generierung komplexer Videos kommerzielle Modelle wie Pika und Gen-2.

VideoTetris definiert erstmalig die Aufgabe der kombinatorischen Videogenerierung, die zwei Unteraufgaben umfasst: 1) Videogenerierung nach komplexen kombinatorischen Anweisungen; 2) Generierung langer Videos nach progressiven, kombinatorischen Anweisungen für mehrere Objekte. Das Team stellte fest, dass nahezu alle existierenden Open-Source- und kommerziellen Modelle keine korrekten Videos generieren konnten. Beispielsweise führte die Eingabe „Links ein süßer brauner Hund, rechts eine Katze, die im Sonnenlicht döst“ oft zu einem seltsamen Ergebnis, bei dem die Informationen der beiden Objekte vermischt wurden.

QQ截图20240617104639.jpg

Im Gegensatz dazu behält VideoTetris alle Positionsinformationen und Detailmerkmale bei. Bei der Generierung langer Videos unterstützt es komplexere Anweisungen, wie z. B. „Übergang von einem süßen braunen Eichhörnchen auf einem Haufen Haselnüssen zu einem süßen braunen und einem süßen weißen Eichhörnchen auf einem Haufen Haselnüssen“. Die Reihenfolge des generierten Videos entspricht der Eingabe, und die beiden Eichhörnchen tauschen auf natürliche Weise Nahrung aus.

Das VideoTetris-Framework verwendet eine spatiotemporale kombinatorische Diffusionsmethode. Es dekonstruiert zunächst die Textaufforderung zeitlich und weist verschiedenen Videobildern unterschiedliche Aufforderungen zu. Anschließend erfolgt eine räumliche Dekonstruktion in jedem Bild, wobei verschiedene Objekte verschiedenen Videobereichen zugeordnet werden. Schließlich wird durch spatiotemporale Kreuzaufmerksamkeit eine effiziente kombinatorische Anweisungsgenerierung erreicht.

Um qualitativ hochwertigere lange Videos zu generieren, hat das Team außerdem eine verbesserte Methode zur Vorverarbeitung von Trainingsdaten entwickelt, die die Generierung langer Videos dynamischer und stabiler macht. Darüber hinaus wurde ein Referenzbild-Aufmerksamkeitsmechanismus eingeführt, der native VAE zur Kodierung vorheriger Bildinformationen verwendet, im Gegensatz zu anderen Modellen, die CLIP-Kodierung verwenden, um eine bessere Konsistenz des Inhalts zu erreichen.

Das Ergebnis ist, dass lange Videos keine großflächigen Farbabweichungen mehr aufweisen, komplexeren Anweisungen besser gerecht werden, dynamischer und natürlicher wirken. Das Team führte außerdem neue Bewertungsmetriken VBLIP-VQA und VUnidet ein und erweiterte erstmalig die Bewertungsmethode für kombinatorische Generierung auf die Videodaten.

Tests zeigen, dass das VideoTetris-Modell in Bezug auf die kombinatorische Videogenerierung alle Open-Source-Modelle und sogar kommerzielle Modelle wie Gen-2 und Pika übertrifft. Der Code soll vollständig Open Source sein.

Projekt-Adresse: https://top.aibase.com/tool/videotetris