Modèle linguistique Spirit LM
Modèle linguistique multi-modal intégrant texte et voix
Produit OrdinaireProductivitéMultimodalModèle linguistique
Spirit LM est un modèle linguistique multi-modal de base capable de combiner librement texte et voix. Ce modèle repose sur un modèle linguistique textuel pré-entraîné de 7 milliards de paramètres, étendu aux données vocales grâce à un entraînement continu sur des unités textuelles et vocales. Les séquences vocales et textuelles sont concaténées en un seul flux de jetons et entraînées à l'aide d'un petit corpus parallèle parole-texte auto-curé, en utilisant une méthode d'entrelacement au niveau des mots. Spirit LM existe en deux versions : une version de base utilisant des unités phonétiques vocales (HuBERT), et une version expressive qui, outre les unités phonétiques, utilise également des unités de hauteur et de style pour simuler l'expressivité. Pour les deux versions, le texte est encodé à l'aide de jetons sous-mots BPE. Le modèle démontre non seulement les capacités sémantiques d'un modèle textuel, mais aussi les capacités expressives d'un modèle vocal. De plus, nous montrons que Spirit LM est capable d'apprendre de nouvelles tâches inter-modales (comme la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et la classification vocale) avec un nombre réduit d'exemples.
Modèle linguistique Spirit LM Dernière situation du trafic
Nombre total de visites mensuelles
218
Taux de rebond
45.60%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00