En el campo de la inteligencia artificial, el rápido desarrollo de los modelos de lenguaje ha generado un gran interés en los modelos de lenguaje de comprensión del habla (SULM). Recientemente, el laboratorio ASLP de la Universidad de Tecnología del Noroeste publicó el modelo abierto de comprensión del habla OSUM, con el objetivo de explorar cómo entrenar y utilizar eficazmente los modelos de comprensión del habla en situaciones con recursos académicos limitados, impulsando así la investigación y la innovación en el ámbito académico.

El modelo OSUM integra el codificador Whisper y el modelo de lenguaje Qwen2, y admite ocho tareas de comprensión del habla, incluyendo reconocimiento de voz (ASR), reconocimiento de voz con marcas de tiempo (SRWT), detección de eventos de voz (VED), reconocimiento de emociones en el habla (SER), reconocimiento del estilo del habla (SSR), clasificación del género del hablante (SGC), predicción de la edad del hablante (SAP) y chat de voz a texto (STTC). El modelo, mediante la estrategia de entrenamiento ASR+X, puede optimizar el reconocimiento de voz de manera eficiente y estable mientras realiza tareas específicas, mejorando la capacidad de aprendizaje multitarea.

El lanzamiento del modelo OSUM no solo se centra en el rendimiento, sino que también destaca la transparencia. Sus métodos de entrenamiento y el proceso de preparación de datos son de acceso público, con el fin de proporcionar una valiosa referencia y guía para la comunidad académica. Según el informe técnico v2.0, la cantidad de datos de entrenamiento del modelo OSUM se ha incrementado a 50.5K horas, significativamente superior a las 44.1K horas anteriores. Esto incluye 3000 horas de datos de clasificación de género de voz y 6800 horas de datos de predicción de edad del hablante. Esta expansión de datos ha mejorado el rendimiento del modelo en diversas tareas.

Los resultados de la evaluación muestran que OSUM supera al modelo Qwen2-Audio en varias tareas, incluso con recursos computacionales y datos de entrenamiento significativamente menores. Los resultados de la evaluación incluyen tanto conjuntos de pruebas públicos como internos, demostrando el buen rendimiento del modelo OSUM en tareas de comprensión del habla.

QQ_1740040417911.png

El laboratorio ASLP de la Universidad de Tecnología del Noroeste afirma que el objetivo de OSUM es promover el desarrollo de tecnologías avanzadas de comprensión del habla a través de una plataforma de investigación abierta. Los investigadores y desarrolladores pueden utilizar libremente el código y los pesos del modelo, incluso con fines comerciales, acelerando así la aplicación y la difusión de la tecnología.

Enlace al proyecto: https://github.com/ASLP-lab/OSUM?tab=readme-ov-file

Puntos clave:

🌟 El modelo OSUM combina el codificador Whisper y el modelo de lenguaje Qwen2, admite múltiples tareas de comprensión del habla y facilita el aprendizaje multitarea.

📊 En el informe técnico v2.0, la cantidad de datos de entrenamiento de OSUM aumentó a 50.5K horas, mejorando el rendimiento del modelo.

🆓 El código y los pesos del modelo están disponibles bajo la licencia Apache2.0, fomentando su uso amplio en la academia y la industria.