Traditionelle Videoanalysemodelle stehen vor zahlreichen Herausforderungen bei der Verarbeitung langer Videos, darunter das Verständnis des komplexen Kontexts langer Videos. Obwohl bereits zahlreiche Forschungsarbeiten darauf abzielen, die Fähigkeiten der Videoanalyse zu verbessern, ist es nach wie vor schwierig, die Probleme der geringen Trainings- und Inferenzeffizienz effektiv zu bewältigen. Um diese Probleme zu lösen, hat das Forschungsteam die HiCo-Technologie entwickelt, die redundante Teile der Videoinformationen komprimiert und so den Rechenbedarf deutlich reduziert, während gleichzeitig wichtige Informationen erhalten bleiben.
Konkret komprimiert HiCo Videos hierarchisch, indem lange Videos in kurze Segmente unterteilt werden, wodurch die Anzahl der zu verarbeitenden Token reduziert wird. Diese Methode reduziert nicht nur den Bedarf des Modells an Rechenressourcen, sondern erhöht auch die Breite des Kontextfensters und verbessert die Verarbeitungsfähigkeit des Modells. Darüber hinaus nutzt das Forschungsteam die semantische Beziehung zur Benutzeranfrage, um die Anzahl der Video-Token weiter zu reduzieren.
Bei der konkreten Umsetzung der Verarbeitung langer Videos verwendet „VideoChat-Flash“ ein mehrstufiges Lernverfahren von kurzen zu langen Videos. Die Forscher verwenden zunächst kurze Videos und deren entsprechende Annotationen für die überwachte Feinabstimmung und integrieren dann schrittweise lange Videos in das Training, um schließlich ein umfassendes Verständnis von Material mit gemischter Länge zu erreichen. Diese Methode verbessert nicht nur die visuelle Wahrnehmung des Modells, sondern bietet auch eine umfassende Datenbasis für die Verarbeitung langer Videos. Das Forschungsteam hat einen riesigen Datensatz mit 300.000 Stunden Video und 200 Millionen Wörtern an Annotationen erstellt.
Darüber hinaus wird in der Studie eine verbesserte „Needle-in-a-Haystack“-Aufgabe für mehrstufige Videokonfigurationen vorgestellt. Durch den neuen Benchmark muss das Modell nicht nur einzelne Zielbilder im Video finden, sondern auch mehrere miteinander verbundene Bildsequenzen verstehen, wodurch das Verständnis des Modells für den Kontext verbessert wird.
Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz die Rechenleistung um zwei Größenordnungen reduziert und insbesondere bei Benchmark-Tests für kurze und lange Videos hervorragende Ergebnisse erzielt, wodurch er zum neuen Marktführer im Bereich des Verständnisses kurzer Videos wird. Gleichzeitig übertrifft das Modell bestehende Open-Source-Modelle im Bereich des Verständnisses langer Videos und zeigt eine starke Fähigkeit zur zeitlichen Lokalisierung.
论文:https://arxiv.org/abs/2501.00574
Highlights:
🌟 Die Forscher haben die hierarchische Video-Token-Komprimierungstechnologie HiCo vorgestellt, die den Rechenbedarf bei der Verarbeitung langer Videos deutlich reduziert.
📹 Das System „VideoChat-Flash“ verwendet ein mehrstufiges Lernverfahren, das kurze und lange Videos kombiniert, um die Fähigkeiten des Modells zu verbessern.
🔍 Die Ergebnisse zeigen, dass der Ansatz in mehreren Benchmark-Tests neue Leistungsstandards erreicht und zu einem fortschrittlichen Modell im Bereich der Verarbeitung langer Videos geworden ist.