O Alibaba Tongyi Lab recentemente lançou um projeto de código aberto de modelo de linguagem grande para áudio chamado FunAudioLLM, com o objetivo de melhorar a experiência de interação de voz natural entre humanos e modelos de linguagem grandes (LLMs). O projeto consiste em dois modelos principais: SenseVoice e CosyVoice.

O CosyVoice concentra-se na geração de fala natural, com suporte multilíngue, controle de tom e emoção, apresentando excelente desempenho na geração de fala multilíngue, geração de fala de amostra zero, síntese de voz entre idiomas e execução de instruções. Treinado com 150.000 horas de dados, ele suporta cinco idiomas: chinês, inglês, japonês, cantonês e coreano, podendo simular rapidamente tons de voz e oferecer controle granular de emoções e ritmo.

O SenseVoice, por sua vez, é dedicado ao reconhecimento de voz multilíngue de alta precisão, reconhecimento de emoções e detecção de eventos de áudio. Treinado com 400.000 horas de dados, ele suporta mais de 50 idiomas, com resultados superiores ao modelo Whisper, especialmente com melhorias superiores a 50% em chinês e cantonês. O SenseVoice também possui capacidade de reconhecimento de emoções e detecção de eventos sonoros, além de uma velocidade de inferência rápida.

微信截图_20240708084503.png

O FunAudioLLM suporta vários cenários de aplicativos de interação homem-máquina, como tradução multilíngue, diálogo de voz emocional, podcasts interativos e audiolivros. Ao combinar SenseVoice, LLMs e CosyVoice, ele pode realizar tradução de voz para voz perfeita, aplicativos de bate-papo de voz emocional e estações de rádio de podcast interativas.

Em termos de princípios técnicos, o CosyVoice é baseado em codificação de quantização de voz, suportando a geração de voz natural e fluida, enquanto o SenseVoice fornece recursos abrangentes de processamento de voz, incluindo reconhecimento automático de voz, reconhecimento de idioma, reconhecimento de emoções e detecção de eventos de áudio.

Os modelos e códigos de código aberto foram lançados no ModelScope e Huggingface, e o GitHub também fornece códigos de treinamento, inferência e ajuste fino. Os modelos CosyVoice e SenseVoice estão disponíveis para experiência online no ModelScope, permitindo que os usuários experimentem diretamente essas tecnologias de voz avançadas.

Endereço do projeto: https://github.com/FunAudioLLM