En el mundo de la inteligencia artificial, los modelos lingüísticos grandes (LLM) se han convertido en una fuerza clave para impulsar las tareas de procesamiento del lenguaje natural (PNL). Sin embargo, aún queda un largo camino por recorrer para que estos modelos comprendan y generen verdaderamente contenido multi-modal, como voz y texto. Un equipo de investigación de la Universidad de Fudan presenta una solución innovadora en su artículo "SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities": SpeechGPT.

image.png

SpeechGPT es un nuevo modelo lingüístico grande que no solo comprende el habla y el texto, sino que también puede convertirlos entre sí con fluidez. El núcleo de esta tecnología radica en la discretización de las señales de voz continuas para unificarlas con la modalidad de texto, permitiendo que el modelo perciba y genere voz.

En pocas palabras, puede percibir y expresar emociones, y proporcionar respuestas de voz en varios estilos según el contexto y las instrucciones humanas. Ya sea rap, teatro, robot, humor o susurro, SpeechGPT puede generar voz en el estilo requerido, gracias a más de 100.000 horas de datos de voz académicos y recopilados en el campo, que abarcan una amplia gama de escenarios y estilos de voz.

Para entrenar SpeechGPT, el equipo de investigación adoptó una estrategia de entrenamiento de tres etapas:

  • Preentrenamiento de adaptación modal: En esta etapa, el modelo se entrena con una gran cantidad de datos de voz no etiquetados para predecir la siguiente unidad discreta, adaptándose así a la modalidad de voz.

  • Ajuste fino de instrucciones multimodales: Utilizando el conjunto de datos SpeechInstruct, que contiene instrucciones para diversas tareas, el modelo aprende a comprender y ejecutar instrucciones multimodales en esta etapa.

  • Ajuste fino de instrucciones de cadena modal: En esta etapa, el modelo se ajusta aún más para optimizar la capacidad de conversión entre modalidades.

Para apoyar el entrenamiento de SpeechGPT, el equipo de investigación construyó el primer conjunto de datos de instrucciones de voz multimodales a gran escala, SpeechInstruct. Este conjunto de datos incluye datos de instrucciones multimodales y datos de instrucciones de cadena modal, cubriendo una variedad de tipos de tareas.

Los resultados experimentales muestran que SpeechGPT exhibe una poderosa capacidad en tareas de texto, tareas multimodales y tareas de conversación oral. Puede comprender y ejecutar con precisión varias instrucciones, ya sea transcribir voz a texto, convertir texto a voz o participar en conversaciones orales.

Cabe destacar que, aunque SpeechGPT muestra una capacidad excepcional, aún presenta algunas deficiencias en la robustez al ruido de la comprensión del habla y la estabilidad de la calidad del sonido de la generación de voz. Estos desafíos se deben principalmente a las limitaciones de los recursos computacionales y de datos. Actualmente, SpeechGPT aún se encuentra en desarrollo, y el equipo planea publicar en el futuro el informe técnico, el código y los pesos del modelo para que una comunidad de investigación más amplia pueda participar en el desarrollo y perfeccionamiento de esta tecnología.

Dirección de la página del proyecto: https://top.aibase.com/tool/speechgpt2