Ein Forschungsteam der Tsinghua-Universität hat kürzlich seine neueste Forschungsleistung, Video-T1, Open Source veröffentlicht. Der Kern dieser Technologie liegt in der Testzeit-Skalierung (Test-Time Scaling, TTS). Ziel ist es, die Qualität der generierten Videos und deren Übereinstimmung mit Text-Prompts durch den Einsatz größerer Rechenressourcen in der Inferenzphase der Videogenerierung deutlich zu verbessern, ohne dass eine kostspielige Modellretrainierung notwendig ist. Dieser innovative Ansatz eröffnet neue Möglichkeiten im Bereich der Videogenerierung.
Was ist „Testzeit-Skalierung“?
Im Bereich der großen Sprachmodelle (LLMs) haben Forscher festgestellt, dass die Erhöhung des Rechenaufwands in der Testphase die Modellleistung effektiv verbessern kann. Video-T1 greift diese Idee auf und wendet sie auf die Videogenerierung an. Vereinfacht gesagt, generiert ein traditionelles Videogenerierungsmodell nach Erhalt eines Text-Prompts direkt ein Video.
Video-T1 mit TTS hingegen „sucht“ und „filtert“ während der Videogenerierung mehrfach. Es werden mehrere Kandidatenvideos generiert und mit einem „Test-Validator“ bewertet, um schließlich das Video mit der höchsten Qualität auszuwählen. Dies ist vergleichbar mit einem Künstler, der vor Fertigstellung seines Werks verschiedene Ansätze und Details ausprobiert.
Die Kerntechnologie von Video-T1
Video-T1 erhöht nicht direkt die Trainingskosten, sondern konzentriert sich darauf, die Fähigkeiten des bestehenden Modells effizienter zu nutzen. Die Kernmethode lässt sich so verstehen, dass im „Rauschraum“ des Modells nach optimalen Trajektorien für die Videogenerierung gesucht wird. Um dieses Ziel zu erreichen, hat das Forschungsteam zwei Haupt-Suchstrategien entwickelt:
Zufällige lineare Suche (Random Linear Search): Diese Methode erzeugt durch zufälliges Abtasten mehrerer Gaußscher Rauschsignale mehrere Kandidaten-Videoclips. Das Videogenerierungsmodell entfernt schrittweise das Rauschen aus diesen Signalen. Ein Test-Validator bewertet die Kandidatenvideos, und das Video mit der höchsten Punktzahl wird ausgewählt.
Frame-Baum-Suche (Tree-of-Frames, ToF): Da die gleichzeitige Entrauschung aller Frames in einem Schritt zu hohen Rechenkosten führt, verwendet ToF eine effizientere Strategie. Der Videogenerierungsprozess wird in drei Phasen unterteilt: Zuerst erfolgt eine Bild-Ebenen-Ausrichtung, die die Generierung nachfolgender Frames beeinflusst; zweitens wird im Test-Validator ein dynamischer Prompt verwendet, der sich auf die Bewegungsstabilität und physikalische Plausibilität konzentriert und den Suchprozess anhand des Feedbacks steuert; drittens wird die Gesamtqualität des Videos bewertet, und das Video mit der höchsten Übereinstimmung mit dem Text-Prompt wird ausgewählt. Die autoregressive Methode von ToF ermöglicht eine intelligentere Exploration der Möglichkeiten der Videogenerierung.
Die bemerkenswerten Ergebnisse von TTS
Die Ergebnisse zeigen, dass mit zunehmender Rechenleistung in der Testphase (d. h. bei der Generierung weiterer Kandidatenvideos) die Modellleistung stetig zunimmt. Dies bedeutet, dass selbst mit demselben Videogenerierungsmodell durch den Einsatz größerer Inferenzzeit Videos höherer Qualität generiert werden können, die besser mit dem Text-Prompt übereinstimmen. Die Forscher führten Experimente mit mehreren Videogenerierungsmodellen durch, die alle eine stabile Leistungssteigerung durch TTS zeigten. Unterschiedliche Test-Validatoren konzentrieren sich auf unterschiedliche Bewertungsaspekte, daher gibt es Unterschiede in der Geschwindigkeit und dem Ausmaß der Leistungssteigerung.
Die TTS-Methode von Video-T1 erzielte signifikante Verbesserungen bei gängigen Prompt-Kategorien (z. B. Szenen, Objekte) und leicht zu bewertenden Dimensionen (z. B. Bildqualität). Die offiziellen Video-Demos zeigen, dass die nach TTS-Verarbeitung generierten Videos eine deutlich verbesserte Schärfe, Detailliertheit und Übereinstimmung mit der Textbeschreibung aufweisen. Beispielsweise ist bei einem Video mit der Beschreibung „eine Katze, die am Pool als Rettungsschwimmer arbeitet und eine Sonnenbrille trägt“ nach der TTS-Verarbeitung das Bild der Katze schärfer und die Rettungsschwimmer-Aktionen wirken natürlicher.
Herausforderungen und Ausblick
Obwohl TTS in vielen Bereichen signifikante Fortschritte gebracht hat, weisen die Forscher auch darauf hin, dass die Verbesserung bei einigen schwer zu bewertenden Eigenschaften wie Bewegungsflüssigkeit und zeitlicher Konsistenz (Vermeidung von Flimmern) relativ begrenzt ist. Dies liegt vor allem daran, dass diese Eigenschaften eine präzise Steuerung der Bewegungstrajektorien über mehrere Frames hinweg erfordern, und aktuelle Videogenerierungsmodelle stehen hier noch vor Herausforderungen.
Video-T1 von der Tsinghua-Universität bietet durch die innovative Testzeit-Skalierungsstrategie einen neuen, effektiven Weg zur Verbesserung der Videogenerierungsqualität. Es erfordert keine kostspielige Retrainierung, sondern entfaltet die Fähigkeiten bestehender Modelle durch intelligentere Nutzung der Rechenressourcen während der Inferenz. Mit dem Fortschritt der zukünftigen Forschung ist zu erwarten, dass die TTS-Technologie im Bereich der Videogenerierung eine immer wichtigere Rolle spielen wird.