Spirit LM est un modèle linguistique multi-modal de base capable de combiner librement texte et voix. Ce modèle repose sur un modèle linguistique textuel pré-entraîné de 7 milliards de paramètres, étendu aux données vocales grâce à un entraînement continu sur des unités textuelles et vocales. Les séquences vocales et textuelles sont concaténées en un seul flux de jetons et entraînées à l'aide d'un petit corpus parallèle parole-texte auto-curé, en utilisant une méthode d'entrelacement au niveau des mots. Spirit LM existe en deux versions : une version de base utilisant des unités phonétiques vocales (HuBERT), et une version expressive qui, outre les unités phonétiques, utilise également des unités de hauteur et de style pour simuler l'expressivité. Pour les deux versions, le texte est encodé à l'aide de jetons sous-mots BPE. Le modèle démontre non seulement les capacités sémantiques d'un modèle textuel, mais aussi les capacités expressives d'un modèle vocal. De plus, nous montrons que Spirit LM est capable d'apprendre de nouvelles tâches inter-modales (comme la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et la classification vocale) avec un nombre réduit d'exemples.