El laboratorio Alibaba Tongyi ha lanzado recientemente un proyecto de código abierto de modelos de lenguaje grandes de audio llamado FunAudioLLM, cuyo objetivo es mejorar la experiencia de interacción de voz natural entre humanos y modelos de lenguaje grandes (LLM). Este proyecto consta de dos modelos principales: SenseVoice y CosyVoice.

CosyVoice se centra en la generación de voz natural, con soporte multilingüe, control de tono y emoción. Destaca en la generación de voz multilingüe, la generación de voz de muestra cero, la síntesis de voz entre idiomas y la ejecución de instrucciones. Entrenado con 150.000 horas de datos, admite cinco idiomas: chino, inglés, japonés, cantonés y coreano. Puede simular rápidamente el timbre y ofrece un control granular de la emoción y el ritmo.

SenseVoice se dedica al reconocimiento de voz multilingüe de alta precisión, al reconocimiento de emociones y a la detección de eventos de audio. Entrenado con 400.000 horas de datos, admite más de 50 idiomas. Su rendimiento supera al del modelo Whisper, especialmente en chino y cantonés, con una mejora superior al 50%. SenseVoice también cuenta con capacidades de reconocimiento de emociones y detección de eventos de sonido, además de una rápida velocidad de inferencia.

微信截图_20240708084503.png

FunAudioLLM admite diversas aplicaciones de interacción persona-máquina, como traducción multilingüe, conversaciones de voz emocionales, podcasts interactivos y audiolibros. Combinando SenseVoice, LLM y CosyVoice, puede lograr traducción de voz a voz sin problemas, aplicaciones de chat de voz emocional y estaciones de radio podcast interactivas.

En cuanto a los principios técnicos, CosyVoice se basa en la codificación de cuantificación de voz, lo que permite una generación de voz natural y fluida, mientras que SenseVoice proporciona funciones completas de procesamiento de voz, incluyendo reconocimiento automático de voz, reconocimiento de idioma, reconocimiento de emociones y detección de eventos de audio.

Los modelos y el código de código abierto se han publicado en ModelScope y Huggingface, y también se proporciona código de entrenamiento, inferencia y ajuste fino en GitHub. Los modelos CosyVoice y SenseVoice están disponibles para probarlos online en ModelScope, lo que facilita a los usuarios experimentar directamente con estas tecnologías de voz avanzadas.

Dirección del proyecto: https://github.com/FunAudioLLM