Spirit LM
Multimodales Sprachmodell, das Text und Sprache integriert
Normales ProduktProduktivitätMultimodalSprachmodell
Spirit LM ist ein grundlegendes multimodales Sprachmodell, das Text und Sprache frei kombinieren kann. Das Modell basiert auf einem vortrainierten Text-Sprachmodell mit 7 Milliarden Parametern und wurde durch kontinuierliches Training auf Text- und Spracheinheiten auf die Spracherkennung erweitert. Sprach- und Textsequenzen werden als einzelner Token-Stream verkettet und mit einem kleinen, automatisch kuratierten parallelen Sprach-Text-Korpus mittels wortweiser Interleaving-Methode trainiert. Spirit LM existiert in zwei Versionen: Die Basisversion verwendet Sprachphoneme (HuBERT), während die expressive Version zusätzlich zu den Phonemen auch Tonhöhe und Stil-Einheiten zur Simulation von Expressivität verwendet. Für beide Versionen wird Text mit Subwort-BPE-Token kodiert. Das Modell zeigt nicht nur die semantischen Fähigkeiten eines Textmodells, sondern auch die expressiven Fähigkeiten eines Sprachmodells. Darüber hinaus zeigen wir, dass Spirit LM neue Aufgaben (z. B. ASR, TTS, Sprachklassifizierung) mit wenigen Beispielen modalübergreifend erlernen kann.
Spirit LM Neueste Verkehrssituation
Monatliche Gesamtbesuche
218
Absprungrate
45.60%
Durchschnittliche Seiten pro Besuch
1.0
Durchschnittliche Besuchsdauer
00:00:00