Meta AI hat kürzlich SPIRIT-LM vorgestellt, ein revolutionäres multimodales Basis-Sprachmodell, das Text und Sprache frei mischen und Emotionen wie ein Mensch verstehen und ausdrücken kann.
SPIRIT-LM basiert auf einem vortrainierten Text-Sprachmodell und wird durch kontinuierliches Training auf Text- und Spracheinheiten auf die Sprachmodalität erweitert. Das Modell verbindet Sprach- und Textsequenzen zu einem einzigen Token-Set und wird mit einem kleinen, automatisch verwalteten parallelen Sprach-Text-Korpus unter Verwendung einer wortweisen Verflechtungsmethode trainiert.
SPIRIT-LM gibt es in zwei Versionen:
Basisversion (SPIRIT-LM-BASE) verwendet sprachsemantische Einheiten.
Ausdrucksstarke Version (SPIRIT-LM-EXPRESSIVE) verwendet Tonhöhen- und Stileinheiten zur Simulation emotionaler Ausdrücke, zusätzlich zu semantischen Einheiten.
Beide Versionen verwenden Subwort-BPE-Token zur Textkodierung.
SPIRIT-LM kombiniert die semantischen Fähigkeiten von Textmodellen mit den Ausdrucksfähigkeiten von Sprachmodellen. Daher kann es crossmodale Aufgaben wie Spracherkennung, Text-to-Speech und Sprachklassifizierung erledigen und lernt neue Aufgaben mit nur wenigen Beispielen.
Um die Ausdrucksfähigkeit des generativen Modells zu bewerten, haben die Forscher den Sprach-Text-Emotionserhaltungs-Benchmark (STSP) eingeführt. Dieser Benchmark misst, wie gut das generative Modell Emotionen in mündlichen und schriftlichen Äußerungen innerhalb und über Modalitäten hinweg bewahrt.
Die ausdrucksstarke Version von SPIRIT-LM ist das erste Sprachmodell, das Emotionen aus Text- und Spracheingaben innerhalb und über Modalitäten hinweg bewahren kann. Es nutzt Tonhöhen- und Stiletiketten, um die Emotionen und den Stil der Sprache zu erfassen, und wird anhand eines speziell entwickelten Sprach-Text-Emotionserhaltungs-Benchmarks bewertet.
Die Forschungsergebnisse zeigen:
SPIRIT-LM ist bestehenden Modellen in Bezug auf Vokabular, Grammatik und semantische Verständnis in der Sprachmodalität ebenbürtig und behält gleichzeitig eine gute Textgenerierungsfähigkeit.
Das verflochtene Training ist der Schlüssel zum Erfolg von SPIRIT-LM. Es ermöglicht dem Modell, die Korrespondenz zwischen Sprach- und Text-Token zu lernen und so eine bessere Text-zu-Sprache-Konvertierung zu erreichen.
Vortrainiertes Wissen ist entscheidend für die Fähigkeit von SPIRIT-LM zum Lernen mit wenigen Beispielen.
SPIRIT-LM-EXPRESSIVE kann ausdrucksstärkere Sprache erfassen und generieren und ist der Basisversion in Bezug auf den emotionalen Ausdruck überlegen.
SPIRIT-LM ist ein wichtiger Meilenstein in der Geschichte der KI-Sprachmodelle. Es eröffnet völlig neue Möglichkeiten für multimodales Sprachverständnis und -generierung und legt den Grundstein für zukünftige intelligentere und menschenfreundlichere KI-Anwendungen.
Paper-Adresse: https://arxiv.org/pdf/2402.05755
Projekt-Adresse: https://github.com/facebookresearch/spiritlm