Vista-LLaMA
Erreicht zuverlässige Video-Beschreibungen durch gleichmäßige Beziehungen zwischen visuellen und sprachlichen Tokens.
Normales ProduktVideoVideoerstellungKI-Animationserstellung
Vista-LLaMA ist ein fortschrittliches Video-Sprachmodell zur Verbesserung des Videoverständnisses. Durch die Beibehaltung eines konstanten Abstands zwischen visuellen und sprachlichen Tokens wird die Generierung von Texten, die nicht zum Videoinhalt gehören, unabhängig von der Länge des generierten Texts reduziert. Diese Methode lässt die relative Positionskodierung bei der Berechnung der Aufmerksamkeitsgewichte zwischen visuellen und textlichen Tokens weg, wodurch der Einfluss visueller Tokens auf den Textgenerierungsprozess verstärkt wird. Vista-LLaMA führt außerdem einen sequenziellen visuellen Projektor ein, der aktuelle Videobilder in Tokens des Sprachraums projizieren kann, um die zeitlichen Beziehungen innerhalb des Videos zu erfassen und gleichzeitig den Bedarf an visuellen Tokens zu reduzieren. In mehreren Benchmarks für offene Video-Fragen und -Antworten übertrifft das Modell deutlich andere Methoden.