Récemment, une équipe de recherche de l'Université de Nanjing, en collaboration avec ByteDance et l'Université du Sud-Ouest, a lancé une technologie innovante : STAR (Spatial-Temporal Augmentation with Text-to-Video Models). Elle vise à utiliser des modèles texte-vers-vidéo pour réaliser un suréchantillonnage de vidéos du monde réel. Cette technologie, combinant des méthodes d'augmentation spatio-temporelle, permet d'améliorer efficacement la qualité des vidéos basse résolution, particulièrement utiles pour les vidéos de faible qualité téléchargées sur les plateformes de partage vidéo.

image.png

Pour faciliter l'utilisation par les chercheurs et les développeurs, l'équipe de recherche a publié sur GitHub une version pré-entraînée du modèle STAR, incluant deux modèles : I2VGen-XL et CogVideoX-5B, ainsi que le code d'inférence associé. Le lancement de ces outils marque une avancée importante dans le domaine du traitement vidéo.

L'utilisation du modèle est relativement simple. Tout d'abord, l'utilisateur doit télécharger le modèle STAR pré-entraîné sur HuggingFace et le placer dans le répertoire spécifié. Ensuite, il doit préparer le fichier vidéo à tester et choisir l'option d'invite textuelle appropriée : aucune invite, génération automatique ou saisie manuelle d'une invite. L'utilisateur n'a qu'à ajuster les paramètres de chemin dans le script pour effectuer facilement le suréchantillonnage vidéo.

Ce projet a spécialement conçu deux modèles basés sur I2VGen-XL, destinés à différents niveaux de dégradation vidéo, afin de répondre à une variété de besoins. De plus, le modèle CogVideoX-5B prend en charge le format d'entrée 720x480, offrant une option flexible pour des scénarios spécifiques.

Cette recherche non seulement fournit de nouvelles pistes pour le développement de la technologie de suréchantillonnage vidéo, mais ouvre également de nouvelles perspectives de recherche pour les chercheurs du domaine. L'équipe de recherche remercie les technologies de pointe I2VGen-XL, VEnhancer, CogVideoX et OpenVid-1M, considérant qu'elles ont jeté les bases de leur projet.

Accès au projet : https://github.com/NJU-PCALab/STAR

Points clés :

🌟 La nouvelle technologie STAR combine les modèles texte-vers-vidéo pour réaliser un suréchantillonnage vidéo et améliorer la qualité vidéo.

🛠️ L'équipe de recherche a publié des modèles pré-entraînés et le code d'inférence, le processus d'utilisation étant simple et clair.

📩 Des coordonnées sont fournies pour encourager les utilisateurs à échanger et à discuter avec l'équipe de recherche.