ByteDance kündigt die Einführung seines neuen multimodalen Modells Vidi an, das sich auf Videoverständnis und -bearbeitung konzentriert. Die Kernfunktion der ersten Version ist die präzise Zeitsuche. Laut AIbase verarbeitet Vidi visuelle, audiovisuelle und Text-Eingaben und unterstützt die Analyse von extrem langen Videos mit einer Länge von bis zu einer Stunde. Bei Zeitsuch-Aufgaben übertrifft es die Leistung von Mainstream-Modellen wie GPT-4 und Gemini. Diese bahnbrechende Technologie hat in der KI-Community bereits lebhafte Diskussionen ausgelöst, und Details wurden über offizielle Kanäle von ByteDance und GitHub veröffentlicht.

1.jpg

Kernfunktionen: Präzise Zeitsuche und multimodale Zusammenarbeit

Vidi bietet mit seinen leistungsstarken Funktionen zur Zeitsuche und multimodalen Verarbeitung eine neue Lösung für das Verständnis und die Bearbeitung von Videos. AIbase hat die Hauptfunktionen zusammengefasst:

Präzise Zeitpositionsbestimmung: Vidi kann anhand von Texthinweisen oder multimodalen Eingaben präzise bestimmte Abschnitte in Videos lokalisieren (z. B. „Finde den 30-sekündigen Abschnitt, in dem die Figur tanzt“). Die Zeitauflösung beträgt Sekunden, was die Effizienz der Inhaltsuche deutlich verbessert.

Unterstützung für extrem lange Videos: Es unterstützt die Verarbeitung von Videos mit einer Länge von bis zu einer Stunde und überwindet die Speicher- und Rechenengpässe herkömmlicher Modelle beim Verständnis langer Videosequenzen. Es eignet sich ideal für die Analyse von Filmen, Livestreams oder Konferenzaufzeichnungen.

Multimodale Eingabeverarbeitung: Es integriert visuelle (Sequenzen von Bildern), audiovisuelle (Sprache, Hintergrundgeräusche) und Textdaten (Untertitel, Beschreibungen), um ein cross-modales semantische Verständnis zu erreichen, z. B. die Lokalisierung von Highlights im Video anhand der Audio-Emotionen.

Effiziente Bearbeitungsfunktionen: Es unterstützt das Schneiden, Neuordnen und Markieren von Videoclips basierend auf der Zeitsuche und vereinfacht so den Prozess der Inhaltserstellung und der Nachbearbeitung.

AIbase hat festgestellt, dass Community-Tests gezeigt haben, dass Vidi bei der Verarbeitung des Youku-mPLUG-Datensatzes (10 Millionen Video-Sprachpaare) schnell komplexe Szenenfragmente lokalisieren kann und die Leistung von GPT-4 bei der Zeitsuch-Aufgabe in ActivityNet übertrifft (Genauigkeitsverbesserung um ca. 10 %).

Technische Architektur: Innovative Zeitcodierung und multimodale Fusion

Vidi basiert auf dem VeOmni-Framework von ByteDance und kombiniert ein videospezifisches großes Sprachmodell (Vid-LLM) mit einer zeitlich erweiterten Transformer-Architektur. Laut AIbase-Analyse gehören zu den Kerntechnologien:

Zeitlich erweiterter Transformer: Durch zeitliche Einbettungen (Temporal Embedding) und hierarchische Aufmerksamkeitsmechanismen wird die Modellierung der räumlich-zeitlichen Beziehungen langer Videosequenzen optimiert, um eine hochpräzise Zeitsuche zu gewährleisten.

Multimodaler Codierer: Es verwendet die einheitliche visuelle Darstellung von Chat-UniVi, um Videobilder, Audio-Wellenformen und Text-Einbettungen zu fusionieren, um eine cross-modale semantische Ausrichtung zu ermöglichen und Informationsverluste zu reduzieren.

Optimierung des effizienten Inferenzprozesses: Durch das verteilte ByteScale-Trainingssystem von ByteDance, kombiniert mit 4-Bit-Quantisierung und dynamischer Blockverarbeitung, werden die Rechenkosten für die Verarbeitung extrem langer Videos deutlich reduziert.

Datensatzgesteuert: Die Trainingsdaten umfassen Youku-mPLUG (10 Millionen Video-Sprachpaare) und WebVid-10M und decken mehrere Sprachen und verschiedene Szenarien ab, um die Generalisierungsfähigkeit des Modells zu verbessern.

AIbase ist der Ansicht, dass die Zeitsuchfunktion von Vidi auf dem innovativen PHD-CSWA-Mechanismus (Chunk-wise Sliding Window Attention) basiert, der mit der zuvor von ByteDance veröffentlichten effizienten Technik zur Vorab-Training-Längen-Skalierung verwandt ist und sich besonders für Aufgaben mit langen Sequenzen eignet.

Anwendungsszenarien: Von der Inhaltserstellung bis zur intelligenten Analyse

Die multimodale Fähigkeit und die Unterstützung für extrem lange Videos eröffnen Vidi ein breites Anwendungsspektrum. AIbase fasst die Hauptanwendungsbereiche zusammen:

Inhaltserstellung und -bearbeitung: Bietet Videoerstellern präzise Funktionen zur Lokalisierung von Abschnitten und automatische Schnittwerkzeuge, um die Erstellung von Kurzvideos, Vlogs oder Filmtrailern zu vereinfachen, z. B. das schnelle Extrahieren von Highlights aus Livestreams.

Intelligente Videoanalyse: Unterstützt Unternehmen bei der Analyse von langen Konferenzaufzeichnungen oder Überwachungsvideos, automatische Kennzeichnung wichtiger Ereignisse (z. B. „Abschnitt über das Budget“), um die Effizienz der Informationsbeschaffung zu verbessern.

Bildung und Ausbildung: Analyse von Lehrvideos, Lokalisierung bestimmter Wissensbereiche oder interaktiver Abschnitte, Erstellung von individuellen Lernsequenzen, geeignet für Online-Bildungsplattformen.

Unterhaltung und Empfehlungen: Optimierung von Videoempfehlungssystemen auf Plattformen wie TikTok durch semantische und zeitliche Analysen zur Verbesserung der Genauigkeit der Inhaltsübereinstimmung und zur Verbesserung der Benutzererfahrung.

Community-Feedback zeigt, dass Vidi bei der Verarbeitung langer chinesischer Videos (z. B. Varieté-Shows) besonders gut abschneidet. Die mehrsprachige Unterstützung (8 Sprachen) erweitert das globale Anwendungspotenzial weiter. AIbase hat beobachtet, dass Vidi nahtlos in das Doubao-Modellökosystem von ByteDance integriert ist und eine solide Grundlage für den kommerziellen Einsatz bietet.

Anleitung: Open-Source-Unterstützung, Entwicklerfreundlich

AIbase hat erfahren, dass der Code und die vortrainierten Modelle von Vidi auf GitHub Open Source verfügbar sein werden (voraussichtlich github.com/ByteDance-Seed/Vidi) und PyTorch und das VeOmni-Framework unterstützen. Entwickler können die folgenden Schritte ausführen, um schnell zu beginnen:

Klonen Sie das Vidi-Repository, installieren Sie Python 3.9+ und NVIDIA CUDA-Abhängigkeiten.

Laden Sie den Youku-mPLUG- oder WebVid-10M-Datensatz herunter und konfigurieren Sie die Zeitsuch-Aufgabe.

Führen Sie die Inferenz mit dem bereitgestellten Skript vidi.yaml aus und geben Sie multimodale Eingabeaufforderungen ein (z. B. „Lokalisieren Sie den Abschnitt im Video, in dem der Sprecher über KI spricht“).

Exportieren Sie die lokalisierten Abschnitte oder Bearbeitungsergebnisse, unterstützt werden MP4 oder JSON-Formate.

Das von der Community bereitgestellte Docker-Image und die Hugging Face-Integration vereinfachen den Bereitstellungsprozess. Empfohlene Hardware ist NVIDIA A100 (40 GB) oder RTX 3090 (24 GB). AIbase empfiehlt Entwicklern, die Zeitsuchfunktion von Vidi zuerst in den Datensätzen ActivityNet oder EgoSchema zu testen, um die Leistungsvorteile zu überprüfen.

Leistungsvergleich: Übertrifft GPT-4 und Gemini

Vidi zeichnet sich besonders durch seine Leistung bei Zeitsuch-Aufgaben aus. AIbase hat einen Vergleich mit gängigen Modellen erstellt:

Genauigkeit der Zeitsuche: Im ActivityNet-Datensatz ist die Genauigkeit von Vidi um ca. 10 % höher als die von GPT-4 und um ca. 12 % höher als die von Gemini 1.5 Pro, insbesondere bei langen Videos (> 30 Minuten) zeigt es eine stabile Leistung.

Verarbeitungsgeschwindigkeit: Die durchschnittliche Verarbeitungszeit von Vidi für ein einstündiges Video beträgt 5-7 Minuten (128 GPUs) und ist besser als die 8-10 Minuten von GPT-4, dank des Block-Aufmerksamkeitsmechanismus.

Multimodales Verständnis: Bei der Video-Frage-Antwort-Aufgabe in Youku-mPLUG übertrifft Vidi die Gesamtpunktzahl (visuell, audiovisuell, Text) von Gemini 1.5 Pro um ca. 5 % und liegt auf dem Niveau von GPT-4.

Community-Analysen zeigen, dass der Leistungsvorteil von Vidi auf der Optimierung für den Videobereich und nicht auf einem universellen multimodalen Design beruht, insbesondere bei der zeitlichen Wahrnehmung und der Verarbeitung langer Sequenzen ist es gezielter. AIbase prognostiziert, dass die Open-Source-Veröffentlichung von Vidi den Wettbewerb im Bereich Vid-LLM weiter ankurbeln wird.

Projektseite: https://bytedance.github.io/vidi-website/