SPIRIT LM: O novo modelo de linguagem de áudio da Meta que permite que a IA não apenas fale, mas também o faça com emoção!

A Meta AI recentemente lançou um modelo de linguagem multimodal básico de grande porte chamado SPIRIT LM, de código aberto, capaz de misturar livremente texto e fala, abrindo novas possibilidades para tarefas multimodais de áudio e texto.

O SPIRIT LM é baseado em um modelo de linguagem de texto pré-treinado de 7 bilhões de parâmetros, expandido para a modalidade de fala por meio de treinamento contínuo em unidades de texto e fala. Ele pode entender e gerar texto como um grande modelo de linguagem de texto, mas também pode entender e gerar fala, e até mesmo misturar texto e fala para criar efeitos incríveis! Por exemplo, você pode usá-lo para reconhecimento de fala, convertendo fala em texto; para síntese de fala, convertendo texto em fala; ou para classificação de fala, determinando a emoção expressa em um trecho de fala.

Ainda mais impressionante, o SPIRIT LM é particularmente habilidoso na "expressão emocional"! Ele pode identificar e gerar diferentes tons e estilos de fala, tornando a voz da IA mais natural e expressiva. Imagine uma voz gerada pelo SPIRIT LM, não mais um som robótico e frio, mas sim como uma conversa humana, cheia de alegria, tristeza, raiva e outras emoções!

Para tornar a IA ainda mais "expressiva", os pesquisadores da Meta desenvolveram duas versões do SPIRIT LM:

“Versão básica” (BASE): esta versão foca principalmente nas informações fonéticas da fala, ou seja, nos "componentes básicos" da fala.

“Versão expressiva” (EXPRESSIVE): além das informações fonéticas, esta versão inclui informações de tom e estilo, permitindo que a voz da IA seja mais animada e expressiva.

Então, como o SPIRIT LM consegue fazer tudo isso?

Simplificando, o SPIRIT LM é treinado com base no LLAMA2, o poderoso modelo de linguagem de texto lançado anteriormente pela Meta. Os pesquisadores "alimentaram" o LLAMA2 com grandes quantidades de dados de texto e fala, e usaram um método especial de "treinamento intercalado" para permitir que o LLAMA2 aprendesse simultaneamente as regras do texto e da fala.

Para testar a capacidade de "expressão emocional" do SPIRIT LM, os pesquisadores da Meta projetaram um novo benchmark de teste - o "Benchmark de Preservação de Emoções de Fala-Texto" (STSP). Este benchmark inclui vários prompts de fala e texto que expressam diferentes emoções, usados para testar se o modelo de IA consegue identificar e gerar com precisão fala e texto com as emoções correspondentes. Os resultados mostraram que a "versão expressiva" do SPIRIT LM teve um desempenho excelente na preservação de emoções, sendo o primeiro modelo de IA capaz de preservar informações emocionais entre modalidades!

Claro, os pesquisadores da Meta também admitem que o SPIRIT LM ainda precisa de muitas melhorias. Por exemplo, o SPIRIT LM atualmente só suporta inglês, e no futuro precisará ser expandido para outros idiomas; o tamanho do modelo do SPIRIT LM ainda não é grande o suficiente, e no futuro será necessário continuar expandindo o tamanho do modelo para melhorar o desempenho do modelo.

O SPIRIT LM é um grande avanço da Meta na área de IA, abrindo as portas para um mundo de IA "expressiva". Acreditamos que, em breve, veremos mais aplicativos interessantes desenvolvidos com base no SPIRIT LM, permitindo que a IA não apenas fale e converse, mas também expresse emoções como um ser humano, interagindo conosco de forma mais natural e amigável!

Endereço do projeto: https://speechbot.github.io/spiritlm/

Endereço do artigo: https://arxiv.org/pdf/2402.05755

Notícias e Informações de IA

SPIRIT LM: O novo modelo de linguagem de áudio da Meta que permite que a IA não apenas fale, mas também o faça com emoção!

AIbase基地

Notícias de IA Relacionadas Recomendadas

A Step-1V, da Jieyue Xingchen, e a Chá Baodao firmam parceria estratégica; lojas já utilizam o modelo de linguagem multimodal

Pronto para uso! Sistema de avatar digital IA AigcPanel com um clique, suporta síntese de voz e clonagem de voz

Amazon desenvolve novo modelo de linguagem multimodal "Olympus", que pode ser lançado na AWS re:Invent

Nova tecnologia de clonagem de voz do Google: clone vozes com apenas alguns segundos de amostra de áudio