No mundo da inteligência artificial, os grandes modelos de linguagem (LLMs) tornaram-se uma força motriz crucial para tarefas de processamento de linguagem natural (PNL). No entanto, ainda há um longo caminho a percorrer para que esses modelos realmente compreendam e gerem conteúdo multi-modal, como voz e texto. Uma equipe de pesquisa da Universidade de Fudan, em seu artigo "SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities", propôs uma solução inovadora: o SpeechGPT.

image.png

O SpeechGPT é um novo grande modelo de linguagem que não apenas compreende voz e texto, mas também consegue converter-se livremente entre os dois. O cerne dessa tecnologia reside na discretização de sinais de voz contínuos, permitindo sua unificação com a modalidade de texto, dando ao modelo a capacidade de perceber e gerar voz.

Em termos simples, ele consegue perceber e expressar emoções e fornecer respostas de voz em vários estilos, com base no contexto e nas instruções humanas. Seja rap, teatro, robótico, humorístico ou sussurro, o SpeechGPT pode gerar voz no estilo desejado, graças a mais de 100.000 horas de dados de voz acadêmicos e coletados em campo, abrangendo uma ampla gama de cenários e estilos de voz.

Para treinar o SpeechGPT, a equipe de pesquisa adotou uma estratégia de treinamento em três etapas:

  • Pré-treinamento de adaptação modal: Nesta etapa, o modelo é treinado com uma grande quantidade de dados de voz não rotulados para prever a próxima unidade discreta, adaptando-se assim à modalidade de voz.

  • Ajuste fino de instruções multimodais: Usando o conjunto de dados SpeechInstruct, que contém instruções para várias tarefas, o modelo aprende a compreender e executar instruções multimodais nesta etapa.

  • Ajuste fino de instruções de cadeia modal: Nesta etapa, o modelo é ajustado ainda mais para otimizar sua capacidade de conversão entre modalidades.

Para apoiar o treinamento do SpeechGPT, a equipe de pesquisa construiu o primeiro conjunto de dados de instruções de voz multimodais em larga escala, o SpeechInstruct. Este conjunto de dados inclui dados de instruções multimodais e dados de instruções de cadeia modal, abrangendo vários tipos de tarefas.

Os resultados experimentais mostram que o SpeechGPT demonstrou capacidades robustas em tarefas de texto, tarefas multimodais e tarefas de diálogo falado. Ele consegue compreender e executar com precisão várias instruções, seja transcrevendo voz em texto, convertendo texto em voz ou conduzindo diálogos falados.

Vale ressaltar que, embora o SpeechGPT demonstre capacidades excepcionais, ainda apresenta algumas deficiências em termos de robustez ao ruído na compreensão da fala e estabilidade da qualidade de áudio na geração de fala. Esses desafios são principalmente devido a limitações de recursos computacionais e de dados. Atualmente, o SpeechGPT ainda está em desenvolvimento, e a equipe planeja liberar no futuro o relatório técnico, o código e os pesos do modelo, para que uma comunidade de pesquisa mais ampla possa contribuir para o desenvolvimento e aprimoramento dessa tecnologia.

Endereço da página do projeto: https://top.aibase.com/tool/speechgpt2