ByteDance präsentiert Vidi, ein multimodales Modell für die revolutionäre Bearbeitung und das Verständnis von Langzeitvideos

ByteDance kündigt die Einführung seines neuen multimodalen Modells Vidi an, das sich auf Videoverständnis und -bearbeitung konzentriert. Die Kernfunktion der ersten Version ist die präzise Zeitsuche. Laut AIbase verarbeitet Vidi visuelle, audiovisuelle und Text-Eingaben und unterstützt die Analyse von extrem langen Videos mit einer Länge von bis zu einer Stunde. Bei Zeitsuch-Aufgaben übertrifft es die Leistung von Mainstream-Modellen wie GPT-4 und Gemini. Diese bahnbrechende Technologie hat in der KI-Community bereits lebhafte Diskussionen ausgelöst, und Details wurden über offizielle Kanäle von ByteDance und GitHub veröffentlicht.

Kernfunktionen: Präzise Zeitsuche und multimodale Zusammenarbeit

Vidi bietet mit seinen leistungsstarken Funktionen zur Zeitsuche und multimodalen Verarbeitung eine neue Lösung für das Verständnis und die Bearbeitung von Videos. AIbase hat die Hauptfunktionen zusammengefasst:

Präzise Zeitpositionsbestimmung: Vidi kann anhand von Texthinweisen oder multimodalen Eingaben präzise bestimmte Abschnitte in Videos lokalisieren (z. B. „Finde den 30-sekündigen Abschnitt, in dem die Figur tanzt“). Die Zeitauflösung beträgt Sekunden, was die Effizienz der Inhaltsuche deutlich verbessert.

Unterstützung für extrem lange Videos: Es unterstützt die Verarbeitung von Videos mit einer Länge von bis zu einer Stunde und überwindet die Speicher- und Rechenengpässe herkömmlicher Modelle beim Verständnis langer Videosequenzen. Es eignet sich ideal für die Analyse von Filmen, Livestreams oder Konferenzaufzeichnungen.

Multimodale Eingabeverarbeitung: Es integriert visuelle (Sequenzen von Bildern), audiovisuelle (Sprache, Hintergrundgeräusche) und Textdaten (Untertitel, Beschreibungen), um ein cross-modales semantische Verständnis zu erreichen, z. B. die Lokalisierung von Highlights im Video anhand der Audio-Emotionen.

Effiziente Bearbeitungsfunktionen: Es unterstützt das Schneiden, Neuordnen und Markieren von Videoclips basierend auf der Zeitsuche und vereinfacht so den Prozess der Inhaltserstellung und der Nachbearbeitung.

AIbase hat festgestellt, dass Community-Tests gezeigt haben, dass Vidi bei der Verarbeitung des Youku-mPLUG-Datensatzes (10 Millionen Video-Sprachpaare) schnell komplexe Szenenfragmente lokalisieren kann und die Leistung von GPT-4 bei der Zeitsuch-Aufgabe in ActivityNet übertrifft (Genauigkeitsverbesserung um ca. 10 %).

Technische Architektur: Innovative Zeitcodierung und multimodale Fusion

Vidi basiert auf dem VeOmni-Framework von ByteDance und kombiniert ein videospezifisches großes Sprachmodell (Vid-LLM) mit einer zeitlich erweiterten Transformer-Architektur. Laut AIbase-Analyse gehören zu den Kerntechnologien:

Zeitlich erweiterter Transformer: Durch zeitliche Einbettungen (Temporal Embedding) und hierarchische Aufmerksamkeitsmechanismen wird die Modellierung der räumlich-zeitlichen Beziehungen langer Videosequenzen optimiert, um eine hochpräzise Zeitsuche zu gewährleisten.

Multimodaler Codierer: Es verwendet die einheitliche visuelle Darstellung von Chat-UniVi, um Videobilder, Audio-Wellenformen und Text-Einbettungen zu fusionieren, um eine cross-modale semantische Ausrichtung zu ermöglichen und Informationsverluste zu reduzieren.

Optimierung des effizienten Inferenzprozesses: Durch das verteilte ByteScale-Trainingssystem von ByteDance, kombiniert mit 4-Bit-Quantisierung und dynamischer Blockverarbeitung, werden die Rechenkosten für die Verarbeitung extrem langer Videos deutlich reduziert.

Datensatzgesteuert: Die Trainingsdaten umfassen Youku-mPLUG (10 Millionen Video-Sprachpaare) und WebVid-10M und decken mehrere Sprachen und verschiedene Szenarien ab, um die Generalisierungsfähigkeit des Modells zu verbessern.

AIbase ist der Ansicht, dass die Zeitsuchfunktion von Vidi auf dem innovativen PHD-CSWA-Mechanismus (Chunk-wise Sliding Window Attention) basiert, der mit der zuvor von ByteDance veröffentlichten effizienten Technik zur Vorab-Training-Längen-Skalierung verwandt ist und sich besonders für Aufgaben mit langen Sequenzen eignet.

Anwendungsszenarien: Von der Inhaltserstellung bis zur intelligenten Analyse

Die multimodale Fähigkeit und die Unterstützung für extrem lange Videos eröffnen Vidi ein breites Anwendungsspektrum. AIbase fasst die Hauptanwendungsbereiche zusammen:

Inhaltserstellung und -bearbeitung: Bietet Videoerstellern präzise Funktionen zur Lokalisierung von Abschnitten und automatische Schnittwerkzeuge, um die Erstellung von Kurzvideos, Vlogs oder Filmtrailern zu vereinfachen, z. B. das schnelle Extrahieren von Highlights aus Livestreams.

Intelligente Videoanalyse: Unterstützt Unternehmen bei der Analyse von langen Konferenzaufzeichnungen oder Überwachungsvideos, automatische Kennzeichnung wichtiger Ereignisse (z. B. „Abschnitt über das Budget“), um die Effizienz der Informationsbeschaffung zu verbessern.

Bildung und Ausbildung: Analyse von Lehrvideos, Lokalisierung bestimmter Wissensbereiche oder interaktiver Abschnitte, Erstellung von individuellen Lernsequenzen, geeignet für Online-Bildungsplattformen.

Unterhaltung und Empfehlungen: Optimierung von Videoempfehlungssystemen auf Plattformen wie TikTok durch semantische und zeitliche Analysen zur Verbesserung der Genauigkeit der Inhaltsübereinstimmung und zur Verbesserung der Benutzererfahrung.

Community-Feedback zeigt, dass Vidi bei der Verarbeitung langer chinesischer Videos (z. B. Varieté-Shows) besonders gut abschneidet. Die mehrsprachige Unterstützung (8 Sprachen) erweitert das globale Anwendungspotenzial weiter. AIbase hat beobachtet, dass Vidi nahtlos in das Doubao-Modellökosystem von ByteDance integriert ist und eine solide Grundlage für den kommerziellen Einsatz bietet.

Anleitung: Open-Source-Unterstützung, Entwicklerfreundlich

AIbase hat erfahren, dass der Code und die vortrainierten Modelle von Vidi auf GitHub Open Source verfügbar sein werden (voraussichtlich github.com/ByteDance-Seed/Vidi) und PyTorch und das VeOmni-Framework unterstützen. Entwickler können die folgenden Schritte ausführen, um schnell zu beginnen:

Klonen Sie das Vidi-Repository, installieren Sie Python 3.9+ und NVIDIA CUDA-Abhängigkeiten.

Laden Sie den Youku-mPLUG- oder WebVid-10M-Datensatz herunter und konfigurieren Sie die Zeitsuch-Aufgabe.

Führen Sie die Inferenz mit dem bereitgestellten Skript vidi.yaml aus und geben Sie multimodale Eingabeaufforderungen ein (z. B. „Lokalisieren Sie den Abschnitt im Video, in dem der Sprecher über KI spricht“).

Exportieren Sie die lokalisierten Abschnitte oder Bearbeitungsergebnisse, unterstützt werden MP4 oder JSON-Formate.

Das von der Community bereitgestellte Docker-Image und die Hugging Face-Integration vereinfachen den Bereitstellungsprozess. Empfohlene Hardware ist NVIDIA A100 (40 GB) oder RTX 3090 (24 GB). AIbase empfiehlt Entwicklern, die Zeitsuchfunktion von Vidi zuerst in den Datensätzen ActivityNet oder EgoSchema zu testen, um die Leistungsvorteile zu überprüfen.

Leistungsvergleich: Übertrifft GPT-4 und Gemini

Vidi zeichnet sich besonders durch seine Leistung bei Zeitsuch-Aufgaben aus. AIbase hat einen Vergleich mit gängigen Modellen erstellt:

Genauigkeit der Zeitsuche: Im ActivityNet-Datensatz ist die Genauigkeit von Vidi um ca. 10 % höher als die von GPT-4 und um ca. 12 % höher als die von Gemini 1.5 Pro, insbesondere bei langen Videos (> 30 Minuten) zeigt es eine stabile Leistung.

Verarbeitungsgeschwindigkeit: Die durchschnittliche Verarbeitungszeit von Vidi für ein einstündiges Video beträgt 5-7 Minuten (128 GPUs) und ist besser als die 8-10 Minuten von GPT-4, dank des Block-Aufmerksamkeitsmechanismus.

Multimodales Verständnis: Bei der Video-Frage-Antwort-Aufgabe in Youku-mPLUG übertrifft Vidi die Gesamtpunktzahl (visuell, audiovisuell, Text) von Gemini 1.5 Pro um ca. 5 % und liegt auf dem Niveau von GPT-4.

Community-Analysen zeigen, dass der Leistungsvorteil von Vidi auf der Optimierung für den Videobereich und nicht auf einem universellen multimodalen Design beruht, insbesondere bei der zeitlichen Wahrnehmung und der Verarbeitung langer Sequenzen ist es gezielter. AIbase prognostiziert, dass die Open-Source-Veröffentlichung von Vidi den Wettbewerb im Bereich Vid-LLM weiter ankurbeln wird.

Projektseite: https://bytedance.github.io/vidi-website/

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

ByteDance präsentiert Vidi, ein multimodales Modell für die revolutionäre Bearbeitung und das Verständnis von Langzeitvideos

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Meta, Nvidia und HP entwickeln gemeinsames KI-Projekt für den Weltraum: Space Llama

Nvidia beginnt erstmals mit der Herstellung von KI-Supercomputern in den USA und baut eine unabhängige Lieferkette auf

Nvidia plant die Herstellung von KI-Chips in den USA

Einsatz auf eine Billion Dollar teure KI-Zukunft: Nvidia baut erstmals in den USA einen KI-Supercomputer

SandboxAQ, Quanten-KI-Startup, sichert sich 450 Millionen US-Dollar in der Serie-E-Finanzierungsrunde – Google und Nvidia beteiligen sich

Nvidia veröffentlicht Llama 3.1 Nemotron Ultra 253B – übertrifft Llama 4 Behemoth

Nvidia präsentiert Llama 3.1 Nemotron Ultra 253B: Neuer Branchenmaßstab für KI-Leistung

Nvidia schließt Übernahme von Lepton AI ab; Jias Yangqing, ehemaliger Vizepräsident von Alibaba, wechselt mit seinem Team

Nvidia plant Übernahme von Lepton AI, dem von Yangqing Jia gegründeten KI-Startup, um Cloud-Computing-Strategie voranzutreiben

Nvidia präsentiert G-Assist: Ein lokal laufender KI-Assistent für umfassende Spielerunterstützung