智谱AI gibt die Open-Source-Upgrade des CogVLM2-Video-Modells bekannt, ein Modell, das im Bereich des Videoverständnisses bemerkenswerte Fortschritte erzielt hat. CogVLM2-Video löst die Einschränkungen bestehender Videoanalysemodelle im Umgang mit dem Verlust von Zeitinformationen, indem es mehrfache Video-Bilder und Zeitstempel als Eingabe für den Encoder verwendet. Das Modell nutzt eine automatisierte Methode zum Erstellen von zeitbezogenen Daten und generierte 30.000 zeitbezogene Video-Frage-Antwort-Daten, um ein Modell zu trainieren, das auf öffentlichen Videoanalyse-Benchmarks die aktuell beste Leistung erreicht. CogVLM2-Video zeichnet sich durch hervorragende Leistungen in der Video-Untertitelung und Zeitlokalisierung aus und bietet ein leistungsstarkes Werkzeug für Aufgaben wie Videogenerierung und -zusammenfassung.

CogVLM2-Video extrahiert Frames aus dem Eingabevideo und annotiert diese mit Zeitstempeln, sodass das Sprachmodell die genaue Zeit jedes Frames kennt und somit Zeitlokalisierung und zugehörige Fragen und Antworten ermöglicht.

微信截图_20240712135239.png

Für das groß angelegte Training wurde ein automatisierter Prozess zur Generierung von Video-Frage-Antwort-Daten entwickelt. Durch die Kombination von Bildanalyse- und großen Sprachmodellen wurden die Annotationkosten reduziert und die Datenqualität verbessert. Der resultierende Temporal Grounding Question and Answer (TQA)-Datensatz umfasst 30.000 Datensätze und bietet reichhaltige Daten zur Zeitlokalisierung für das Modelltraining.

CogVLM2-Video zeigt auf mehreren öffentlich zugänglichen Testdatensätzen eine herausragende Leistung, einschließlich hervorragender Ergebnisse bei quantitativen Bewertungsmetriken wie VideoChatGPT-Bench und Zero-shot QA sowie MVBench.

Code:https://github.com/THUDM/CogVLM2

Projektwebsite:https://cogvlm2-video.github.io

Online-Testversion:http://36.103.203.44:7868/