Derzeit haben multimodal große Sprachmodelle (MLLMs) im Bereich des Videoverständnisses bemerkenswerte Fortschritte erzielt, doch die Verarbeitung von extrem langen Videos stellt nach wie vor eine Herausforderung dar. Dies liegt daran, dass MLLMs in der Regel Schwierigkeiten haben, mehr als die maximale Kontextlänge von mehreren tausend visuellen Markierungen zu verarbeiten, und unter Informationsverlust durch die Aggregation von Markierungen leiden. Gleichzeitig verursachen die vielen Video-Markierungen hohe Rechenkosten.

Um diese Probleme zu lösen, haben das Zhiyuan-Institut zusammen mit mehreren Universitäten wie der Shanghai Jiao Tong University, der Renmin University of China, der Peking University und der Beijing University of Posts and Telecommunications Video-XL entwickelt, ein extrem langes visuelles Sprachmodell, das speziell für die effiziente Verarbeitung von stundenlangen Videos konzipiert wurde. Der Kern von Video-XL liegt in der Technik der „latenten Zusammenfassung des visuellen Kontexts“, die die inhärenten Kontextmodellierungsfähigkeiten von LLMs nutzt, um lange visuelle Repräsentationen effizient in eine kompaktere Form zu komprimieren.

image.png

Vereinfacht gesagt, komprimiert es den Videoclip in eine prägnantere Form, ähnlich wie man ein ganzes Rind in eine Schale mit konzentrierter Rinderkraftbrühe verwandelt, um die Verdauung und Aufnahme durch das Modell zu erleichtern.

Diese Komprimierungstechnik verbessert nicht nur die Effizienz, sondern bewahrt auch effektiv die wichtigsten Informationen des Videos. Lange Videos sind oft voller redundanter Informationen, vergleichbar mit einem langen, langweiligen Bericht. Video-XL kann diese nutzlosen Informationen präzise entfernen und nur die Essenz behalten, sodass das Modell beim Verständnis langer Videos nicht die Orientierung verliert.

image.png

Video-XL ist nicht nur theoretisch beeindruckend, sondern auch in der Praxis sehr leistungsstark. In mehreren Benchmarks für das Verständnis langer Videos erzielte Video-XL führende Ergebnisse, insbesondere im VNBench-Test, wo es die Genauigkeit der bisher besten Methode um fast 10 % übertraf.

Besonders beeindruckend ist das erstaunliche Gleichgewicht zwischen Effizienz und Leistung von Video-XL. Es kann Videos mit 2048 Frames auf einer einzelnen 80-GB-GPU verarbeiten und gleichzeitig eine Genauigkeit von fast 95 % bei der „Suche nach der Nadel im Heuhaufen“-Bewertung aufrechterhalten.

Die Anwendungsperspektiven von Video-XL sind sehr vielversprechend. Neben dem Verständnis allgemeiner langer Videos kann es auch spezifische Aufgaben bewältigen, wie z. B. Filmbesprechungen, die Erkennung von Anomalien in der Überwachung und die Erkennung von eingebetteter Werbung.

Das bedeutet, dass man in Zukunft Filme nicht mehr mit langen Handlungssträngen ertragen muss, sondern mit Video-XL eine prägnante Zusammenfassung erstellen kann – zeitsparend und effizient. Oder man kann es zur Überwachung von Sicherheitskameras verwenden, um automatisch ungewöhnliche Ereignisse zu erkennen, was viel effizienter ist als die manuelle Überwachung.

Projekt-Adresse: https://github.com/VectorSpaceLab/Video-XL

Forschungsarbeit: https://arxiv.org/pdf/2409.14485