Spirit LM

Multimodales Sprachmodell, das Text und Sprache integriert

Normales ProduktProduktivitätMultimodalSprachmodell

Spirit LM ist ein grundlegendes multimodales Sprachmodell, das Text und Sprache frei kombinieren kann. Das Modell basiert auf einem vortrainierten Text-Sprachmodell mit 7 Milliarden Parametern und wurde durch kontinuierliches Training auf Text- und Spracheinheiten auf die Spracherkennung erweitert. Sprach- und Textsequenzen werden als einzelner Token-Stream verkettet und mit einem kleinen, automatisch kuratierten parallelen Sprach-Text-Korpus mittels wortweiser Interleaving-Methode trainiert. Spirit LM existiert in zwei Versionen: Die Basisversion verwendet Sprachphoneme (HuBERT), während die expressive Version zusätzlich zu den Phonemen auch Tonhöhe und Stil-Einheiten zur Simulation von Expressivität verwendet. Für beide Versionen wird Text mit Subwort-BPE-Token kodiert. Das Modell zeigt nicht nur die semantischen Fähigkeiten eines Textmodells, sondern auch die expressiven Fähigkeiten eines Sprachmodells. Darüber hinaus zeigen wir, dass Spirit LM neue Aufgaben (z. B. ASR, TTS, Sprachklassifizierung) mit wenigen Beispielen modalübergreifend erlernen kann.

Best AI Websites & Tools

Spirit LM

Spirit LM Neueste Verkehrssituation

Spirit LM Besuchstrend

Spirit LM Geografische Verteilung der Besuche

Spirit LM Traffic-Quellen

Spirit LM Alternativen

Spirit LM — Multimodales Sprachmodell, das Text und Sprache integriert

GPT4o.so — Revolutionäre KI-Technologie, multimodale intelligente Interaktion

imp-v1-3b — Ein leistungsstarkes multimodales kleines Sprachmodell

Inception Labs — Inception Labs bringt eine neue Generation diffusionsbasierter Sprachmodelle auf den Markt und bietet extrem schnelle, effiziente und hochwertige Sprachgenerierung.

Instella — Instella ist ein von AMD entwickeltes, leistungsstarkes Open-Source-Sprachmodell, das speziell für die Beschleunigung der Entwicklung von Open-Source-Sprachmodellen entwickelt wurde.

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

Mochii AI — Mochii AI ist ein personalisiertes KI-Ökosystem, das von hochmodernen Modellen unterstützt wird und die Zukunft der Zusammenarbeit zwischen Mensch und KI vorantreibt.

TheoremExplainAgent — TheoremExplainAgent ist ein intelligentes System zur Generierung multimodaler Erklärvideos für Theoreme.

GPT-4.5 — Das neueste Sprachmodell GPT-4.5 von OpenAI konzentriert sich auf die Verbesserung der Fähigkeiten des unüberwachten Lernens und bietet ein natürlicheres interaktives Erlebnis.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct ist ein leichtgewichtiges, multimodales Basismodell von Microsoft, das Text-, Bild- und Audioeingaben unterstützt.

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

ZeroBench — ZeroBench ist ein hoch anspruchsvoller visueller Benchmark für moderne, große multimodale Modelle.

OLMoE App — Ai2 OLMoE ist eine Open-Source-Anwendung für Sprachmodelle, die auf iOS-Geräten läuft.

FireRedASR — Ein quelloffenes, industrietaugliches Mandarin-Sprachmodell zur automatischen Spracherkennung (ASR), das verschiedene Anwendungsszenarien unterstützt.

VideoRAG — VideoRAG ist ein retrieval-augmented generation framework (RAG) zur Verarbeitung von Videos mit extrem langen Kontexten.

Xwen-Chat — Xwen-Chat ist eine Sammlung von großen Sprachmodellen, die sich auf chinesische Konversationen konzentrieren und verschiedene Modellversionen sowie Sprachgenerierungsdienste anbieten.

OmniHuman-1 — OmniHuman-1 ist ein multimodaler Rahmen, der aus einem einzelnen Porträtbild und Bewegungssignalen menschenähnliche Videos generiert.

MILS — LLMs können sehen und hören, ohne dafür trainiert zu werden.

Janus-Pro-7B — Janus-Pro-7B ist ein neuartiges autoregressives Framework, das multimodalen Verständnis und Generierung vereint.

Die letzte Prüfung der Menschheit — Die letzte Prüfung der Menschheit ist ein multimodaler Benchmark zur Bewertung der Fähigkeiten großer Sprachmodelle.

UI-TARS — UI-TARS ist ein natives GUI-Agentenmodell der nächsten Generation zur Automatisierung der Interaktion mit grafischen Benutzeroberflächen.

ReaderLM v2 — ReaderLM v2 ist ein fortschrittliches, kleines Sprachmodell für die Konvertierung von HTML in Markdown und JSON.

MiniMax-01 — Leistungsstarkes Sprachmodell mit 4560 Milliarden Parametern, das Kontexte mit bis zu 4 Millionen Token verarbeiten kann.

MinMo — MinMo ist ein multimodaler großes Sprachmodell für nahtlose Sprachinteraktion.

MiniCPM-o-2_6 — MiniCPM-o 2.6 ist ein leistungsstarkes, multimodales großes Sprachmodell, das sich für visuelle, sprachbasierte und multimodale Live-Übertragungen eignet.

MiniCPM-o — MiniCPM-o 2.6: Ein MLLM (Multimodales Large Language Model) auf GPT-4o-Niveau, das visuelle, sprachliche und multimodale Livestreaming auf Smartphones ermöglicht.

Albus KI — All-in-one KI-Arbeitsbereich: Echtzeit-Sprachassistent kombiniert mit einer multimodalen Arbeitsfläche für effizientes Arbeiten und kreatives Denken.

Moondream AI — Open-Source-visuelles Sprachmodell, lauffähig auf verschiedenen Geräten.

InternVL2_5-26B-MPO-AWQ — Ein fortschrittliches, multimodal großes Sprachmodell mit herausragender multimodaler Inferenzfähigkeit.

Eurus-2-7B-SFT — Eurus-2-7B-SFT ist ein großes Sprachmodell, das für mathematische Fähigkeiten optimiert wurde und sich auf Schlussfolgerungen und Problemlösung konzentriert.