Forscher haben kürzlich die ShareGPT4Video-Serie vorgestellt, die darauf abzielt, das Videoverständnis von Large-Scale Video Language Models (LVLMs) und die Videogenerierung von Text-to-Video-Modellen (T2VMs) durch präzise und detaillierte Untertitel zu verbessern.
ShareGPT4Video umfasst:
1) ShareGPT4Video: 40.000 Untertitel für Videos unterschiedlicher Länge und Herkunft, annotiert mit GPT4V und mithilfe sorgfältig entwickelter Datenfilter- und Annotationsstrategien erstellt.
2) ShareCaptioner-Video: Ein effizientes und leistungsstarkes Modell zur Generierung von Video-Untertiteln für beliebige Videos. Es hat 4.800.000 hochwertige, ästhetisch ansprechende Videos annotiert.
3) ShareGPT4Video-8B: Ein einfaches, aber herausragendes LVLM, das in drei fortschrittlichen Video-Benchmark-Tests eine SOTA-Leistung erzielt hat.
Neben der Skalierbarkeit und den hohen Kosten menschlicher Annotatoren stellten die Forscher fest, dass die Verwendung von GPT4V mit einfachen Multi-Frame- oder Frame-Konkatenations-Eingabemethoden zu Untertiteln führt, denen es an Details mangelt und die zeitliche Ungenauigkeiten aufweisen können. Das Forschungsteam sieht die Herausforderungen bei der Entwicklung von Strategien für hochwertige Video-Untertitel in drei Bereichen:
1) Verständnis präziser zeitlicher Veränderungen zwischen Frames.
2) Beschreibung detaillierter Inhalte innerhalb eines Frames.
3) Skalierbarkeit der Frame-Anzahl für Videos beliebiger Länge.
Daher haben die Forscher eine differenzierte Video-Untertitelungsstrategie entwickelt, die stabil, skalierbar und effizient für die Generierung von Untertiteln für Videos beliebiger Auflösung, Seitenverhältnisse und Längen ist. Auf dieser Basis wurde ShareGPT4Video mit 40.000 hochwertigen Videos aus einer Vielzahl von Kategorien erstellt. Die generierten Untertitel enthalten umfassendes Weltwissen, Objekteigenschaften, Kamerabwegungen und detaillierte, präzise zeitliche Beschreibungen wichtiger Ereignisse.
Basierend auf ShareGPT4Video wurde ShareCaptioner-Video entwickelt, ein hervorragendes Modell zur Untertitelgenerierung, das effizient hochwertige Untertitel für beliebige Videos erstellen kann. Es wurden 4.800.000 ästhetisch ansprechende Videos damit annotiert, und die Effektivität wurde in einer Text-zu-Video-Generierungsaufgabe von 10 Sekunden verifiziert. ShareCaptioner-Video ist ein Vier-in-Eins-Modell für Video-Untertitel mit folgenden Funktionen: Schnelle Untertitelung, gleitende Untertitel, Clip-Zusammenfassungen und schnelles erneutes Untertiteln.
Im Bereich des Videoverständnisses hat das Forschungsteam die Effektivität von ShareGPT4Video für verschiedene aktuelle LVLM-Architekturen verifiziert und ein herausragendes neues LVLM, ShareGPT4Video-8B, vorgestellt.
Produktzugang: https://top.aibase.com/tool/sharegpt4video