Show-o

Ein einheitlicher Transformator für multimodalen Verständnis und Generierung

Normales ProduktBildKünstliche IntelligenzMultimodal

Show-o ist ein einziges Transformer-Modell für multimodales Verständnis und Generierung. Es verarbeitet Bildbeschriftungen, visuelle Frage-Antwort-Systeme, Text-zu-Bild-Generierung, textgeführte Reparatur und Erweiterung sowie die Generierung gemischter Modalitäten. Das Modell wurde gemeinsam von der Show Lab der National University of Singapore und ByteDance entwickelt und nutzt modernste Deep-Learning-Technologien. Es kann Daten verschiedener Modalitäten verstehen und generieren und stellt einen bedeutenden Durchbruch im Bereich der künstlichen Intelligenz dar.

Best AI Websites & Tools

Show-o

Show-o Neueste Verkehrssituation

Show-o Besuchstrend

Show-o Geografische Verteilung der Besuche

Show-o Traffic-Quellen

Show-o Alternativen

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

Show-o — Ein einheitlicher Transformator für multimodalen Verständnis und Generierung

HunyuanVideo-I2V — HunyuanVideo-I2V ist ein von Tencent entwickeltes Framework zur Bild-zu-Video-Generierung, basierend auf HunyuanVideo.

MatAnyone — MatAnyone ist ein stabiler Videomaskierungs-Framework mit zielgerichteter Spezifikation, geeignet für komplexe Hintergründe.

Janus-Pro-7B — Janus-Pro-7B ist ein neuartiges autoregressives Framework, das multimodalen Verständnis und Generierung vereint.

leapfusion-hunyuan-image2video — Eine neuartige Bild-zu-Video-Sampling-Technik, die auf dem Hunyuan-Modell basiert und eine hochwertige Videogenerierung ermöglicht.

SVFR — SVFR ist ein einheitlicher Rahmen für die Video-Gesichtsrestaurierung.

Valley — Multimodales großes Sprachmodell zur Verarbeitung von Text-, Bild- und Videodaten

Infini-Megrez — End-to-End Multimodales Verständnismodell, das durch Soft-Hardware-Synergie die Endgeräte-Intelligenz revolutioniert.

LLaVA-OneVision — Hochwirksames Transformationsmodell für multimodale visuelle Aufgaben

MINT-1T — Ein multimodaler Datensatz mit einer Billion Token und 3,4 Milliarden Bildern.

PuLID — Individuelle Anpassung von Pure und Lightning IDs durch vergleichende Ausrichtung

SDXS — Echtzeit-Einzel-Schritt-Potenzialdiffusionsmodell, kann durch Bildbedingungen gesteuert werden.

MouSi — Multimodales visuell-sprachliches Modell

Mochii AI — Mochii AI ist ein personalisiertes KI-Ökosystem, das von hochmodernen Modellen unterstützt wird und die Zukunft der Zusammenarbeit zwischen Mensch und KI vorantreibt.

TheoremExplainAgent — TheoremExplainAgent ist ein intelligentes System zur Generierung multimodaler Erklärvideos für Theoreme.

QwQ-Max-Preview — QwQ-Max-Preview ist das neueste Ergebnis der Qwen-Serie und basiert auf Qwen2.5-Max. Es verfügt über leistungsstarke Inferenz- und Multi-Domain-Anwendungsfähigkeiten.

Claude 3.7 Sonnet — Claude 3.7 Sonnet ist das neueste Sprachmodell von Anthropic, das schnelle Reaktionen und tiefes Schlussfolgern ermöglicht.

ZeroBench — ZeroBench ist ein hoch anspruchsvoller visueller Benchmark für moderne, große multimodale Modelle.

VisionAgent — VisionAgent ist eine Bibliothek zur Codegenerierung für visuelle Aufgaben und unterstützt verschiedene LLM-Anbieter.

Huginn-0125 — Huginn-0125 ist ein latentes, rekursives Deep-Learning-Modell mit 3,5 Milliarden Parametern, das auf Schlussfolgerungen und Codegenerierung spezialisiert ist.

Lumina-Video — Lumina-Video ist ein erstes Versuchsprojekt zur Videogenerierung, das die Text-zu-Video-Generierung unterstützt.

VideoRAG — VideoRAG ist ein retrieval-augmented generation framework (RAG) zur Verarbeitung von Videos mit extrem langen Kontexten.

VideoJAM — VideoJAM ist ein Framework zur Verbesserung der Bewegungszusammenhänglichkeit von Videogenerierungsmodellen.

OmniHuman-1 — OmniHuman-1 ist ein multimodaler Rahmen, der aus einem einzelnen Porträtbild und Bewegungssignalen menschenähnliche Videos generiert.

MILS — LLMs können sehen und hören, ohne dafür trainiert zu werden.

Janus-Pro-1B — Janus-Pro-1B ist ein einheitliches, multimodales, autoregressives Framework für Verständnis und Generierung.

Tarsier — Tarsier ist ein von ByteDance entwickeltes großes Video-Sprachmodell zur Generierung hochwertiger Videobeschreibungen.

Die letzte Prüfung der Menschheit — Die letzte Prüfung der Menschheit ist ein multimodaler Benchmark zur Bewertung der Fähigkeiten großer Sprachmodelle.

SmolVLM-256M-Instruct — SmolVLM-256M ist das weltweit kleinste multimodale Modell und verarbeitet effizient Bild- und Texteingaben zur Erzeugung von Textausgaben.