VideoPrism

Grundlegendes Modell zum Verständnis von Videos

Normales ProduktVideoVideoverstehenEncoder

VideoPrism ist ein universelles Videokodierungsmodell, das in verschiedenen Videoverstehensaufgaben führende Leistungen erzielt, darunter Klassifizierung, Lokalisierung, Retrieval, Untertitelerzeugung und Frage-Antwort-Systeme. Seine Innovation liegt in dem sehr großen und vielfältigen Pre-Training-Datensatz, der 36 Millionen hochwertige Video-Text-Paare und 582 Millionen Videoclips mit verrauschtem Text umfasst. Das Pre-Training verwendet eine zweistufige Strategie: Zuerst werden Video und Text mithilfe von kontrastivem Lernen abgeglichen, dann werden maskierte Videoblöcke vorhergesagt, wobei verschiedene Aufsichtssignale optimal genutzt werden. Ein festes VideoPrism-Modell kann direkt an Downstream-Aufgaben angepasst werden und erzielt auf 30 Videoverstehens-Benchmarks neue Bestleistungen.

Best AI Websites & Tools

VideoPrism

VideoPrism Neueste Verkehrssituation

VideoPrism Besuchstrend

VideoPrism Geografische Verteilung der Besuche

VideoPrism Traffic-Quellen

VideoPrism Alternativen

VideoPrism — Grundlegendes Modell zum Verständnis von Videos

QwQ-32B — QwQ-32B ist ein leistungsstarkes Inferenzmodell, das speziell für die Lösung komplexer Probleme und die Textgenerierung entwickelt wurde und sich durch hervorragende Leistung auszeichnet.

ART — Eine Technik für einen anonymen Bereichstransformator zur Erzeugung variabler, mehrlagiger transparenter Bilder.

MoBA — MoBA ist ein hybrider Block-Aufmerksamkeitsmechanismus für lange Textkontexte, der die Effizienz von großen Sprachmodellen verbessern soll.

MakeAnything — MakeAnything ist ein Diffusions-Transformer-Modell für die programmatische Sequenzgenerierung in verschiedenen Bereichen.

Janus-Pro-1B — Janus-Pro-1B ist ein einheitliches, multimodales, autoregressives Framework für Verständnis und Generierung.

ViTPose — Sammlung von ViTPose-Modellen, basierend auf der Transformer-Architektur

ModernBERT-large — Hochperformantes bidirektionales Encoder-Transformer-Modell

ModernBERT — ModernBERT ist ein hochperformantes Encoder-Modell der neuen Generation.

Llama-3.3-70B-Instruct — 70 Milliarden Parameter umfassendes multilinguales großes Sprachmodell

OLMo 2 13B — Hochleistungsfähiges Sprachmodell für englischsprachige akademische Benchmarks

Star-Attention — Effiziente Inferenztechnik für große Sprachmodelle mit langen Sequenzen

Qwen2.5-Coder-1.5B — 1,5 Milliarden Parameter großes Codegenerierungsmodell der Qwen2.5-Coder-Serie

MobileLLM-1B — Von Meta entwickeltes Sprachmodell mit unter einer Milliarde Parametern, geeignet für die Verwendung auf Geräten.

MobileLLM-600M — Hochoptimiertes Sprachmodell mit 600 Millionen Parametern, speziell für die Verwendung auf Geräten entwickelt.

MobileLLM-350M — Hochoptimiertes Sprachmodell mit weniger als einer Milliarde Parametern, speziell für die Verwendung auf Geräten entwickelt.

Oase — Ein KI-Modell für Echtzeit-Open-World-Umgebungen, basierend auf Transformer-Architektur

SLM_Survey — Untersuchung, Messung und Einblicke in kleine Sprachmodelle

ACE: Allrounder-Creator und -Editor nach Anweisungen via Diffusions-Transformer — Ein vielseitiger Creator und Editor, der Anweisungen über Diffusions-Transformationen befolgt.

Llama-3.2-1B — Multilinguales großes Sprachmodell

OpenCity — Open-Source-Modell für räumlich-zeitliche Grundlagen, angewendet auf Verkehrsvorhersagen

Bailing-TTS — Ein groß angelegtes Text-to-Speech-Modell (TTS) zur Erzeugung hochwertiger chinesischer Dialekt-Sprachausgabe.

MindSearch — Open-Source-Framework für eine KI-Suchmaschine mit Leistung vergleichbar mit Perplexity.ai Pro.

Tele-FLM-1T — Offenes, mehrsprachiges großes Sprachmodell mit 1 T Parametern

DCLM-7B — Ein Sprachmodell mit 700 Millionen Parametern, das die Effektivität von Datenaufbereitungstechniken demonstriert.

Mamba-Codestral-7B-v0.1 — Leistungsstarkes Open-Source-Codemodell

FlashAttention — Schneller und speichereffizienter präziser Aufmerksamkeitsmechanismus

VideoLLaMA2-7B-16F-Base — Großes Video-Sprachmodell für visuelle Frage-Antwort-Systeme und die Generierung von Videounterschriften.

LVBench — Benchmark für das Verständnis langer Videos

EasyAnimate — End-to-End-Lösung zur Generierung von hochauflösenden und langen Videos