智谱AI gibt die Open-Source-Upgrade des CogVLM2-Video-Modells bekannt, ein Modell, das im Bereich des Videoverständnisses bemerkenswerte Fortschritte erzielt hat. CogVLM2-Video löst die Einschränkungen bestehender Videoanalysemodelle im Umgang mit dem Verlust von Zeitinformationen, indem es mehrfache Video-Bilder und Zeitstempel als Eingabe für den Encoder verwendet. Das Modell nutzt eine automatisierte Methode zum Erstellen von zeitbezogenen Daten und generierte 30.000 zeitbezogene Video-Frage-Antwort-Daten, um ein Modell zu trainieren, das auf öffentlichen Videoanalyse-Benchmarks die aktuell beste Leistung erreicht. CogVLM2-Video zeichnet sich durch hervorragende Leistungen in der Video-Untertitelung und Zeitlokalisierung aus und bietet ein leistungsstarkes Werkzeug für Aufgaben wie Videogenerierung und -zusammenfassung.
CogVLM2-Video extrahiert Frames aus dem Eingabevideo und annotiert diese mit Zeitstempeln, sodass das Sprachmodell die genaue Zeit jedes Frames kennt und somit Zeitlokalisierung und zugehörige Fragen und Antworten ermöglicht.
Für das groß angelegte Training wurde ein automatisierter Prozess zur Generierung von Video-Frage-Antwort-Daten entwickelt. Durch die Kombination von Bildanalyse- und großen Sprachmodellen wurden die Annotationkosten reduziert und die Datenqualität verbessert. Der resultierende Temporal Grounding Question and Answer (TQA)-Datensatz umfasst 30.000 Datensätze und bietet reichhaltige Daten zur Zeitlokalisierung für das Modelltraining.
CogVLM2-Video zeigt auf mehreren öffentlich zugänglichen Testdatensätzen eine herausragende Leistung, einschließlich hervorragender Ergebnisse bei quantitativen Bewertungsmetriken wie VideoChatGPT-Bench und Zero-shot QA sowie MVBench.
Code:https://github.com/THUDM/CogVLM2
Projektwebsite:https://cogvlm2-video.github.io
Online-Testversion:http://36.103.203.44:7868/