Angetrieben von multimodalen großen Sprachmodellen (MLLMs) haben Aufgaben im Zusammenhang mit Bildern und Videos revolutionäre Fortschritte erzielt, darunter visuelle Fragebeantwortung, Erzählgenerierung und interaktive Bearbeitung. Die Erreichung eines detaillierten Verständnisses von Videoinhalten stellt jedoch weiterhin eine große Herausforderung dar. Diese Herausforderung umfasst Aufgaben wie die pixelgenaue Segmentierung, das Tracking mit sprachlichen Beschreibungen und die visuelle Fragebeantwortung zu spezifischen Videoaufforderungen.
Obwohl aktuelle hochmoderne video-perzeptive Modelle bei Segmentierungs- und Tracking-Aufgaben hervorragende Leistungen zeigen, weisen sie immer noch Schwächen im Bereich des offenen Sprachverständnisses und der Dialogfähigkeit auf. Darüber hinaus zeigen Video-MLLMs zwar gute Ergebnisse bei Videoverständnis- und Frage-Antwort-Aufgaben, sind aber bei der Verarbeitung von Wahrnehmungsaufgaben und visuellen Aufforderungen immer noch nicht optimal.
Es gibt hauptsächlich zwei Arten von bestehenden Lösungen: Multimodale große Sprachmodelle (MLLMs) und Referenz-Segmentierungssysteme. MLLMs konzentrierten sich zunächst auf die Verbesserung von multimodalen Fusionsmethoden und Merkmalsextraktoren und entwickelten sich allmählich zu Frameworks, die auf LLMs durch Anweisungs-Feinabstimmung basieren, wie z. B. LLaVA. In jüngster Zeit haben Forscher versucht, die Analyse von Bildern, Videos und mehreren Bildern in einem einzigen Framework zu vereinen, wie z. B. LLaVA-OneVision. Gleichzeitig haben sich Referenz-Segmentierungssysteme von grundlegenden Fusionsmodulen zu Systemen entwickelt, die Segmentierung und Tracking integrieren. Diese Lösungen weisen jedoch immer noch Schwächen bei der umfassenden Integration von Wahrnehmungs- und Sprachverständnisfähigkeiten auf.
Forscher der UC Merced, des ByteDance Seed Teams, der Wuhan University und der Peking University haben Sa2VA vorgestellt, ein bahnbrechendes einheitliches Modell, das darauf abzielt, ein dichtes grundlegendes Verständnis von Bildern und Videos zu ermöglichen. Das Modell unterstützt durch Minimierung der einmaligen Anweisungs-Feinabstimmung eine breite Palette von Bild- und Videoaufgaben und überwindet die Grenzen bestehender multimodaler großer Sprachmodelle.
Sa2VA integriert innovativ SAM-2 mit LLaVA und vereinheitlicht Text, Bilder und Videos in einem gemeinsamen LLM-Token-Raum. Darüber hinaus haben die Forscher einen umfangreichen automatisch annotierten Datensatz namens Ref-SAV veröffentlicht, der über 72.000 Objektdarstellungen in komplexen Videoszenen und 2.000 von Menschen verifizierte Video-Objekte enthält, um eine robuste Benchmark-Fähigkeit zu gewährleisten.
Die Architektur von Sa2VA besteht hauptsächlich aus zwei Teilen: einem LLaVA-ähnlichen Modell und SAM-2, die ein neuartiges entkoppeltes Design verwenden. Die LLaVA-ähnliche Komponente umfasst einen visuellen Encoder zur Verarbeitung von Bildern und Videos, eine visuelle Projektionsschicht und ein LLM zur Vorhersage von Text-Tokens. Das System verwendet eine einzigartige entkoppelte Methode, so dass SAM-2 neben dem vortrainierten LLaVA-Modell arbeitet, ohne direkten Token-Austausch, wodurch die Rechenleistung erhalten bleibt und eine Plug-and-Play-Konnektivität mit verschiedenen vortrainierten MLLMs ermöglicht wird.
Die Ergebnisse zeigen, dass Sa2VA bei Referenz-Segmentierungsaufgaben die besten Ergebnisse erzielt hat. Das Sa2VA-8B-Modell erreicht auf RefCOCO, RefCOCO+ und RefCOCOg cIoU-Werte von 81,6, 76,2 bzw. 78,9 und übertrifft damit vorherige Systeme wie GLaMM-7B. In Bezug auf die Dialogfähigkeit erzielt Sa2VA auf MME, MMbench und SEED-Bench hervorragende Ergebnisse von 2128, 81,6 bzw. 75,1.
Darüber hinaus übertrifft Sa2VA in Video-Benchmark-Tests deutlich das vorherige State-of-the-art VISA-13B und zeigt seine Effizienz und Effektivität bei Bild- und Videoverständnisaufgaben.
Artikel: https://arxiv.org/abs/2501.04001
Modell: https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093
Highlights:
🌟 Sa2VA ist ein neuartiges, einheitliches KI-Framework, das ein tiefes Verständnis von Bildern und Videos ermöglicht und die Grenzen bestehender multimodaler Modelle überwindet.
📊 Das Modell erzielt in mehreren Benchmark-Tests, darunter Referenz-Segmentierung und Dialogfähigkeit, die besten Ergebnisse und zeigt eine hervorragende Leistung.
🧠 Das Design von Sa2VA integriert durch eine entkoppelte Methode effektiv visuelle und sprachliche Verständnisfähigkeiten und unterstützt eine breite Palette von Bild- und Videoaufgaben.