Modèle linguistique Spirit LM

Modèle linguistique multi-modal intégrant texte et voix

Produit OrdinaireProductivitéMultimodalModèle linguistique
Spirit LM est un modèle linguistique multi-modal de base capable de combiner librement texte et voix. Ce modèle repose sur un modèle linguistique textuel pré-entraîné de 7 milliards de paramètres, étendu aux données vocales grâce à un entraînement continu sur des unités textuelles et vocales. Les séquences vocales et textuelles sont concaténées en un seul flux de jetons et entraînées à l'aide d'un petit corpus parallèle parole-texte auto-curé, en utilisant une méthode d'entrelacement au niveau des mots. Spirit LM existe en deux versions : une version de base utilisant des unités phonétiques vocales (HuBERT), et une version expressive qui, outre les unités phonétiques, utilise également des unités de hauteur et de style pour simuler l'expressivité. Pour les deux versions, le texte est encodé à l'aide de jetons sous-mots BPE. Le modèle démontre non seulement les capacités sémantiques d'un modèle textuel, mais aussi les capacités expressives d'un modèle vocal. De plus, nous montrons que Spirit LM est capable d'apprendre de nouvelles tâches inter-modales (comme la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et la classification vocale) avec un nombre réduit d'exemples.
Ouvrir le site Web

Modèle linguistique Spirit LM Dernière situation du trafic

Nombre total de visites mensuelles

218

Taux de rebond

45.60%

Nombre moyen de pages par visite

1.0

Durée moyenne de la visite

00:00:00

Modèle linguistique Spirit LM Tendance des visites

Modèle linguistique Spirit LM Distribution géographique des visites

Modèle linguistique Spirit LM Sources de trafic

Modèle linguistique Spirit LM Alternatives