Récemment, une équipe de chercheurs de l'Université Tsinghua a publié en open source ses derniers résultats de recherche : Video-T1. Le cœur de cette technologie réside dans le mise à l'échelle lors des tests (Test-Time Scaling, TTS), qui vise à améliorer considérablement la qualité des vidéos générées et leur cohérence avec les invites textuelles en investissant davantage de ressources de calcul dans la phase d'inférence de la génération vidéo, sans avoir à effectuer un coûteux réentraînement du modèle. Cette approche novatrice ouvre de nouvelles perspectives dans le domaine de la génération vidéo.

QQ_1742970490034.png

Qu'est-ce que la « mise à l'échelle lors des tests » ?

Dans le domaine des grands modèles linguistiques (LLM), les chercheurs ont constaté qu'augmenter la puissance de calcul lors de la phase de test permet d'améliorer efficacement les performances du modèle. Video-T1 s'inspire de cette idée et l'applique au domaine de la génération vidéo. En termes simples, les modèles de génération vidéo traditionnels, une fois qu'ils reçoivent une invite textuelle, génèrent directement une vidéo.

Video-T1, qui utilise la TTS, procède comme s'il effectuait plusieurs « recherches » et « filtrages » pendant la génération vidéo. Il génère plusieurs vidéos candidates et les évalue à l'aide d'un « vérificateur de test » pour finalement sélectionner la vidéo de la meilleure qualité. C'est comme un artiste qui peaufine son œuvre, essayant différentes approches et détails avant d'arriver au résultat final.

La technologie clé de Video-T1

Video-T1 n'augmente pas directement les coûts d'entraînement, mais se concentre sur la manière d'utiliser plus efficacement les capacités du modèle existant. Sa méthode principale peut être comprise comme la recherche d'une trajectoire de génération vidéo optimale dans « l'espace de bruit » du modèle. Pour atteindre cet objectif, l'équipe de recherche a proposé deux stratégies de recherche principales :

Recherche linéaire aléatoire (Random Linear Search) : cette méthode consiste à échantillonner aléatoirement plusieurs bruits gaussiens, à faire progressivement débruiter ces bruits par le modèle de génération vidéo pour générer plusieurs segments vidéo candidats, puis à évaluer ces vidéos candidates à l'aide d'un vérificateur de test, afin de sélectionner la vidéo ayant le score le plus élevé.

Recherche en arbre d'images (Tree-of-Frames, ToF) : compte tenu du coût de calcul énorme que représente le débruiteur complet de toutes les images simultanément, ToF adopte une stratégie plus efficace. Il divise le processus de génération vidéo en trois phases : il commence par un alignement au niveau de l'image, qui influence la génération des images suivantes ; ensuite, il utilise une invite dynamique dans le vérificateur de test, en se concentrant sur la stabilité du mouvement et la cohérence physique, et en guidant le processus de recherche en fonction des retours ; enfin, il évalue la qualité globale de la vidéo et sélectionne la vidéo la plus alignée avec l'invite textuelle. Cette approche autorégressive de ToF permet d'explorer plus intelligemment les possibilités de génération vidéo.

QQ_1742970605996.png

Résultats remarquables de la TTS

Les résultats expérimentaux montrent que les performances du modèle s'améliorent continuellement avec l'augmentation de la puissance de calcul lors des tests (c'est-à-dire la génération d'un plus grand nombre de vidéos candidates). Cela signifie que, même avec le même modèle de génération vidéo, il est possible de produire des vidéos de meilleure qualité et plus cohérentes avec les invites textuelles en investissant plus de temps d'inférence. Les chercheurs ont mené des expériences sur plusieurs modèles de génération vidéo, et les résultats montrent que la TTS apporte systématiquement une amélioration des performances. De plus, les différents vérificateurs de test se concentrent sur différents aspects de l'évaluation, de sorte que la vitesse et l'ampleur de l'amélioration des performances varient.

La méthode TTS de Video-T1 a apporté des améliorations significatives dans les catégories d'invites courantes (comme les scènes, les objets) et les dimensions facilement évaluables (comme la qualité de l'image). L'observation des démonstrations vidéo fournies officiellement montre que les vidéos traitées par TTS présentent une amélioration notable en termes de netteté, de détails et d'adéquation à la description textuelle. Par exemple, dans une vidéo décrivant « un chat portant des lunettes de soleil faisant le sauveteur au bord d'une piscine », l'image du chat est plus nette après traitement par TTS, et les mouvements du sauveteur sont plus naturels.

QQ_1742970632446.png

Défis et perspectives

Bien que la TTS ait apporté des progrès significatifs à de nombreux égards, les chercheurs soulignent que, pour certaines propriétés potentielles difficiles à évaluer, telles que la fluidité du mouvement et la cohérence temporelle (éviter le scintillement des images), les améliorations apportées par la TTS sont relativement limitées. Cela est principalement dû au fait que ces propriétés nécessitent un contrôle précis de la trajectoire du mouvement entre les images, ce qui reste un défi pour les modèles de génération vidéo actuels.

Video-T1, publié en open source par l'Université Tsinghua, offre une nouvelle voie efficace pour améliorer la qualité de la génération vidéo grâce à sa stratégie innovante de mise à l'échelle lors des tests. Sans nécessiter de coûteux réentraînements, il permet aux modèles existants de révéler leur plein potentiel en utilisant plus intelligemment les ressources de calcul lors de l'inférence. Avec l'approfondissement des recherches futures, il est légitime de s'attendre à ce que la technologie TTS joue un rôle de plus en plus important dans le domaine de la génération vidéo.

Projet :https://top.aibase.com/tool/video-t1