Meta AI vient de lancer SPIRIT-LM, un modèle linguistique multimodal révolutionnaire capable de mélanger librement texte et parole, et de comprendre et d'exprimer les émotions comme un être humain.

SPIRIT-LM est construit sur un modèle linguistique textuel pré-entraîné, étendu à la modalité vocale grâce à un entraînement continu sur des unités textuelles et vocales. Le modèle connecte les séquences vocales et textuelles en un seul ensemble de jetons, et utilise un petit corpus parallèle texte-parole géré automatiquement, entraîné par une méthode d'entrelacement au niveau des mots.

QQ20241021-092227.png

SPIRIT-LM existe en deux versions :

Version de base (SPIRIT-LM-BASE) utilisant des unités sémantiques vocales.

Version expressive (SPIRIT-LM-EXPRESSIVE) utilisant des unités de ton et de style pour simuler l'expression émotionnelle, en plus des unités sémantiques.

Les deux versions utilisent le codage textuel par jetons BPE sous-mots.

SPIRIT-LM combine les capacités sémantiques des modèles textuels et les capacités expressives des modèles vocaux. Il peut ainsi accomplir des tâches multimodales telles que la reconnaissance vocale, la synthèse vocale et la classification vocale, et apprendre de nouvelles tâches avec très peu d'exemples.

Pour évaluer les capacités expressives du modèle génératif, les chercheurs ont introduit le benchmark de préservation des émotions parole-texte (STSP), qui mesure le degré de préservation des émotions dans les expressions orales et écrites, à la fois à l'intérieur et entre les modalités.

La version expressive de SPIRIT-LM est le premier modèle linguistique capable de préserver les émotions des invites textuelles et vocales à l'intérieur et entre les modalités. Il utilise des jetons de ton et de style pour capturer les émotions et le style de la parole, et est évalué via un benchmark de préservation des émotions parole-texte spécialement conçu.

QQ20241021-092239.png

Résultats de la recherche :

SPIRIT-LM est aussi performant que les modèles existants en termes de compréhension du vocabulaire, de la grammaire et de la sémantique dans la modalité vocale, tout en conservant d'excellentes capacités de génération de texte.

L'entraînement entrelacé est la clé du succès de SPIRIT-LM, permettant au modèle d'apprendre les correspondances entre les jetons vocaux et textuels, pour une meilleure conversion texte-parole.

Les connaissances pré-entraînées sont essentielles aux capacités d'apprentissage avec peu d'exemples de SPIRIT-LM.

SPIRIT-LM-EXPRESSIVE est capable de capturer et de générer une parole plus expressive, surpassant la version de base en termes d'expression émotionnelle.

SPIRIT-LM représente une étape importante dans l'histoire des modèles linguistiques de l'IA. Il ouvre de nouvelles possibilités pour la compréhension et la génération du langage multimodal, jetant les bases d'applications IA plus intelligentes et plus humaines à l'avenir.

Adresse de l'article : https://arxiv.org/pdf/2402.05755

Adresse du projet : https://github.com/facebookresearch/spiritlm