Spirit LM

Multimodales Sprachmodell, das Text und Sprache integriert

Normales ProduktProduktivitätMultimodalSprachmodell
Spirit LM ist ein grundlegendes multimodales Sprachmodell, das Text und Sprache frei kombinieren kann. Das Modell basiert auf einem vortrainierten Text-Sprachmodell mit 7 Milliarden Parametern und wurde durch kontinuierliches Training auf Text- und Spracheinheiten auf die Spracherkennung erweitert. Sprach- und Textsequenzen werden als einzelner Token-Stream verkettet und mit einem kleinen, automatisch kuratierten parallelen Sprach-Text-Korpus mittels wortweiser Interleaving-Methode trainiert. Spirit LM existiert in zwei Versionen: Die Basisversion verwendet Sprachphoneme (HuBERT), während die expressive Version zusätzlich zu den Phonemen auch Tonhöhe und Stil-Einheiten zur Simulation von Expressivität verwendet. Für beide Versionen wird Text mit Subwort-BPE-Token kodiert. Das Modell zeigt nicht nur die semantischen Fähigkeiten eines Textmodells, sondern auch die expressiven Fähigkeiten eines Sprachmodells. Darüber hinaus zeigen wir, dass Spirit LM neue Aufgaben (z. B. ASR, TTS, Sprachklassifizierung) mit wenigen Beispielen modalübergreifend erlernen kann.
Website öffnen

Spirit LM Neueste Verkehrssituation

Monatliche Gesamtbesuche

218

Absprungrate

45.60%

Durchschnittliche Seiten pro Besuch

1.0

Durchschnittliche Besuchsdauer

00:00:00

Spirit LM Besuchstrend

Spirit LM Geografische Verteilung der Besuche

Spirit LM Traffic-Quellen

Spirit LM Alternativen