SlowFast-LLaVA

Ein vortrainiertes, großes Sprachmodell für Videoverständnis und -schlussfolgerung.

Normales ProduktProduktivitätVideo-Frage-AntwortMultimodales Lernen

SlowFast-LLaVA ist ein multimodales, großes Sprachmodell, das für Videoverständnis und -schlussfolgerung entwickelt wurde und kein Training benötigt. Es erreicht ohne Feinabstimmung auf beliebigen Daten in verschiedenen Video-Frage-Antwort-Aufgaben und Benchmarks eine Leistung, die mit den modernsten großen Video-Sprachmodellen vergleichbar ist oder diese sogar übertrifft.

Best AI Websites & Tools

SlowFast-LLaVA

SlowFast-LLaVA Neueste Verkehrssituation

SlowFast-LLaVA Besuchstrend

SlowFast-LLaVA Geografische Verteilung der Besuche

SlowFast-LLaVA Traffic-Quellen

SlowFast-LLaVA Alternativen

SlowFast-LLaVA — Ein vortrainiertes, großes Sprachmodell für Videoverständnis und -schlussfolgerung.

PPLLaVA — GPU-implementiertes Modell zum Verständnis von Videosequenzen

FakeShield — Erklärbares Bilddetektor- und Lokalisierungsmodell auf Basis multimodaler, großer Sprachmodelle

NVLM — Ein hochmodernes, multimodales großes Sprachmodell, das fortschrittliche Leistung bei visuellen und sprachlichen Aufgaben erzielt.

LongLLaVA — Effizientes Skalieren eines multimodalen großen Sprachmodells auf 1000 Bilder

EAGLE — Exploration des Designs von multimodalen, großen Sprachmodellen

MoE-LLaVA — Experten-Mix-Modell basierend auf einem großskaligen Bild-Sprach-Modell

NotaGen — NotaGen ist ein Modell zur Generierung von Notenmusik, das auf dem Trainingsparadigma großer Sprachmodelle basiert und sich auf die Generierung hochwertiger klassischer Noten konzentriert.

Spark-TTS — Spark-TTS ist ein effizientes, auf großen Sprachmodellen basierendes, einstromiges, entkoppeltes Sprachsynthesemodell.

TableGPT2-7B — TableGPT2-7B ist ein großes Sprachmodell, das sich auf die Verarbeitung von Tabellendaten konzentriert und für Aufgaben der Datenanalyse und Business Intelligence geeignet ist.

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B ist ein mehrsprachiges, leistungsstarkes, anweisungen feinabgestimmtes großes Sprachmodell für diverse Anwendungsfälle.

Tülu 3 405B — Tülu 3 405B ist ein großes, quelloffenes Sprachmodell, dessen Leistung durch Reinforcement Learning verbessert wurde.

MNN Großmodell Android App — Eine voll funktionsfähige Android-Anwendung für ein großes Sprachmodell mit Multimodalitätsunterstützung.

Baichuan-M1-14B — Von Baichuan Intelligence entwickeltes Open-Source-Sprachmodell, speziell optimiert für den medizinischen Bereich, mit herausragenden allgemeinen Fähigkeiten und Leistung im medizinischen Sektor.

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B ist ein großes Sprachmodell, das mit verstärktem Lernen optimiert wurde und sich auf Schlussfolgerungen und Dialogfähigkeit konzentriert.

PaSa — PaSa ist ein fortschrittlicher, von einem großen Sprachmodell angetriebener Such-Agent für wissenschaftliche Arbeiten, der eigenständig Entscheidungen treffen und präzise Ergebnisse liefern kann.

InternVL2.5-78B-MPO — Dies ist eine Serie fortschrittlicher multimodaler großer Sprachmodelle, die eine herausragende Gesamtleistung aufweisen.

InternLM3-8B-Instruct — InternLM3-8B-Instruct ist ein quelloffenes, 8 Milliarden Parameter umfassendes instruktionsbasiertes Sprachmodell für allgemeine Zwecke und anspruchsvolle Schlussfolgerungen.

MinMo — MinMo ist ein multimodaler großes Sprachmodell für nahtlose Sprachinteraktion.

Dria-Agent-a-3B — Basierend auf dem großen Sprachmodell Qwen2.5-Coder, spezialisiert auf Agentenanwendungen.

Dria-Agent-a-7B — Ein großes Sprachmodell, basierend auf der Qwen2.5-Coder-Serie, spezialisiert auf Agentenanwendungen.

Dria-Agent-α — Dria-Agent-α ist ein interaktives Framework für große Sprachmodelle (LLMs) basierend auf Python.

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — Quantisiertes, großes Sprachmodell basierend auf einem spezifischen Modell, geeignet für Aufgaben der natürlichen Sprachverarbeitung.

InternVL2.5-38B-MPO — Die InternVL2.5-MPO-Modellreihe basiert auf InternVL2.5 und der Mixed Preference Optimization (MPO) und bietet herausragende Leistung.

Agent Laboratory — Agent Laboratory ist ein End-to-End-Workflow für die autonome Forschung, der Wissenschaftler bei der Umsetzung ihrer Forschungsideen unterstützen soll.

InternVL2_5-26B-MPO-AWQ — Ein fortschrittliches, multimodal großes Sprachmodell mit herausragender multimodaler Inferenzfähigkeit.

AnyParser Pro — AnyParser Pro ist ein großes Sprachmodell, das schnell und präzise Inhalte aus PDF-, PPT- und Bilddateien extrahiert.

VITA-1.5 — VITA-1.5: Ein multimodaler großes Sprachmodell der GPT-4o-Klasse für Echtzeit-Video- und Sprachinteraktion

InternVL2_5-26B-MPO — Großes multimodaler Sprachmodell, das die Interaktion zwischen visuellen und sprachlichen Informationen verbessert.

InternVL2_5-8B-MPO-AWQ — Großes multimodales Sprachmodell zur Verbesserung der Interaktion zwischen Bild und Sprache.