Ein Forschungsteam der Nanjing Universität hat in Zusammenarbeit mit ByteDance und der Southwest University eine innovative Technologie namens STAR (Spatial-Temporal Augmentation with Text-to-Video Models) vorgestellt. Diese Technologie nutzt Text-zu-Video-Modelle, um die Superauflösung von realen Videos zu ermöglichen. Durch die Kombination mit räumlich-zeitlichen Verbesserungsmethoden wird die Qualität von Videos niedriger Auflösung deutlich verbessert, insbesondere von solchen, die von Video-Sharing-Plattformen heruntergeladen wurden.

image.png

Für Forscher und Entwickler wurde auf GitHub eine vorab trainierte Version des STAR-Modells veröffentlicht, einschließlich der Modelle I2VGen-XL und CogVideoX-5B sowie des zugehörigen Inferenzcodes. Die Bereitstellung dieser Tools stellt einen wichtigen Fortschritt im Bereich der Videoverarbeitung dar.

Die Verwendung des Modells ist relativ einfach. Zunächst muss der vorab trainierte STAR-Modell von HuggingFace heruntergeladen und in das angegebene Verzeichnis verschoben werden. Anschließend wird die zu testende Videodatei vorbereitet und eine geeignete Textaufforderung ausgewählt, einschließlich keiner Aufforderung, automatischer Generierung oder manueller Eingabe. Der Benutzer muss lediglich die Pfadangaben im Skript anpassen, um die Video-Superauflösung einfach durchführen zu können.

Das Projekt beinhaltet speziell zwei auf I2VGen-XL basierende Modelle für unterschiedlich stark degradierte Videos, um diverse Anforderungen zu erfüllen. Darüber hinaus unterstützt das CogVideoX-5B-Modell speziell das Eingabeformat 720x480 und bietet so flexible Optionen für bestimmte Szenarien.

Diese Forschung liefert nicht nur neue Ansätze für die Entwicklung von Video-Superauflösungstechnologien, sondern eröffnet auch neue Forschungsrichtungen für Wissenschaftler in diesem Bereich. Das Forschungsteam bedankt sich für die innovativen Technologien I2VGen-XL, VEnhancer, CogVideoX und OpenVid-1M, die als Grundlage für dieses Projekt dienten.

Projektseite: https://github.com/NJU-PCALab/STAR

Highlights:

🌟 Die neue Technologie STAR kombiniert Text-zu-Video-Modelle zur Video-Superauflösung und verbessert die Videoqualität.

🛠️ Das Forschungsteam hat vorab trainierte Modelle und Inferenzcodes veröffentlicht; die Anwendung ist einfach und unkompliziert.

📩 Kontaktinformationen werden bereitgestellt, um den Austausch und die Diskussion zwischen Nutzern und dem Forschungsteam zu fördern.