Meta AI acaba de lanzar SPIRIT-LM, un modelo lingüístico multimodal fundamental revolucionario que puede mezclar libremente texto y voz, y comprender y expresar emociones como un humano.

SPIRIT-LM se basa en un modelo lingüístico de texto preentrenado, que se extiende a la modalidad de voz mediante entrenamiento continuo en unidades de texto y voz. El modelo conecta las secuencias de voz y texto en un único conjunto de tokens y utiliza un pequeño corpus paralelo de voz-texto gestionado automáticamente, entrenándose con un método de entrelazado a nivel de palabras.

QQ20241021-092227.png

SPIRIT-LM tiene dos versiones:

Versión básica (SPIRIT-LM-BASE) que utiliza unidades semánticas de voz.

Versión expresiva (SPIRIT-LM-EXPRESSIVE) que utiliza unidades de tono y estilo para simular la expresión emocional, además de las unidades semánticas.

Ambas versiones utilizan tokens BPE sub-palabra para codificar el texto.

SPIRIT-LM combina la capacidad semántica de los modelos de texto con la capacidad expresiva de los modelos de voz, por lo que puede realizar tareas multimodales como reconocimiento de voz, conversión de texto a voz y clasificación de voz, y aprender nuevas tareas con solo unos pocos ejemplos.

Para evaluar la capacidad expresiva del modelo generativo, los investigadores introdujeron el punto de referencia de preservación de la emoción voz-texto (STSP), que mide el grado de preservación de la emoción en la expresión oral y escrita, tanto dentro de la modalidad como entre modalidades.

La versión expresiva de SPIRIT-LM es el primer modelo lingüístico capaz de preservar las emociones de las indicaciones de texto y voz tanto dentro de la modalidad como entre modalidades. Utiliza marcadores de tono y estilo para capturar la emoción y el estilo del habla, y se evalúa mediante un punto de referencia de preservación de la emoción voz-texto especialmente diseñado.

QQ20241021-092239.png

Los resultados de la investigación muestran que:

SPIRIT-LM se compara favorablemente con los modelos existentes en cuanto a la comprensión del vocabulario, la gramática y la semántica en la modalidad de voz, al tiempo que mantiene una buena capacidad de generación de texto.

El entrenamiento entrelazado es clave para el éxito de SPIRIT-LM, ya que permite al modelo aprender las correspondencias entre los tokens de voz y texto, lo que permite una mejor conversión de texto a voz.

El conocimiento preentrenado es crucial para la capacidad de aprendizaje con pocos ejemplos de SPIRIT-LM.

SPIRIT-LM-EXPRESSIVE puede capturar y generar voz más expresiva, superando a la versión básica en cuanto a expresión emocional.

SPIRIT-LM es un hito importante en la historia de los modelos lingüísticos de IA, abriendo nuevas posibilidades para la comprensión y generación de lenguaje multimodal, sentando las bases para aplicaciones de IA más inteligentes y humanas en el futuro.

Dirección del artículo: https://arxiv.org/pdf/2402.05755

Dirección del proyecto: https://github.com/facebookresearch/spiritlm