Im Zeitalter digitaler Medien sind Videos zu einer der wichtigsten Möglichkeiten geworden, um sich auszudrücken und Geschichten zu teilen. Die Erstellung hochwertiger Videos erfordert jedoch in der Regel professionelle Fähigkeiten und teure Ausrüstung. Mit Snap Video können Sie jetzt Videos automatisch generieren, indem Sie einfach den gewünschten Szenario beschreiben.

image.png

Aktuelle Bildgenerierungsmodelle haben bereits eine außergewöhnliche Qualität und Vielfalt gezeigt. Inspiriert davon begannen Forscher, diese Modelle auf die Videogenerierung anzuwenden. Die hohe Redundanz von Videodaten führt jedoch dazu, dass die direkte Anwendung von Bildmodellen auf die Videogenerierung die Realitätsnähe der Bewegungen, die visuelle Qualität und die Skalierbarkeit beeinträchtigt.

Snap Video ist ein videofokussiertes Modell, das diese Herausforderungen systematisch angeht. Erstens erweitert es das EDM-Framework, indem es räumliche und zeitliche redundante Pixel berücksichtigt und so die Videogenerierung auf natürliche Weise unterstützt. Zweitens schlägt es eine neuartige, auf Transformatoren basierende Architektur vor, die 3,31-mal schneller trainiert und 4,5-mal schneller Schlussfolgerungen zieht als U-Net. Dies ermöglicht es Snap Video, effizient Text-zu-Video-Modelle mit Milliarden von Parametern zu trainieren, wodurch erstmals branchenführende Ergebnisse erzielt und Videos mit höherer Qualität, zeitlicher Konsistenz und deutlich komplexeren Bewegungen generiert werden.

Technische Highlights:

Raumzeitliche gemeinsame Modellierung: Snap Video kann kohärente Videos mit großen Bewegungen synthetisieren und gleichzeitig die semantische Steuerung eines großen Text-zu-Video-Generators beibehalten.

Hoch auflösende Videogenerierung: Durch ein zweistufiges kaskadiertes Modell wird zunächst ein niedrig auflösendes Video generiert und anschließend eine hochauflösende Upsampling durchgeführt, wodurch potenzielle zeitliche Inkonsistenzen vermieden werden.

FIT-basierte Architektur: Snap Video nutzt die FIT-Architektur (Far-reaching Interleaved Transformers), um durch das Erlernen komprimierter Videodarstellungen eine effiziente gemeinsame Raumzeitberechnung zu ermöglichen.

Snap Video wurde auf den weit verbreiteten Datensätzen UCF101 und MSR-VTT evaluiert und zeigt besondere Stärken in der Generierung von Bewegungsqualität. Benutzerstudien zeigen, dass Snap Video aktuelle Methoden in Bezug auf die Ausrichtung von Video-Text, die Anzahl und die Qualität der Bewegungen übertrifft.

Die Arbeit diskutiert auch andere Forschungsarbeiten im Bereich der Videogenerierung, darunter Ansätze basierend auf gegnerischem Training oder autoregressiven Generierungsverfahren sowie die jüngsten Fortschritte bei der Anwendung von Diffusionsmodellen in Text-zu-Video-Generierungsaufgaben.

Snap Video geht die gängigen Probleme von Diffusionsprozessen und Architekturen bei der Text-zu-Video-Generierung systematisch an, indem es Videos als gleichberechtigte Elemente behandelt. Die vorgeschlagenen Modifikationen des EDM-Diffusionsframeworks und die FIT-basierte Architektur verbessern die Qualität und Skalierbarkeit der Videogenerierung deutlich.

论文地址:https://arxiv.org/pdf/2402.14797