ByteDance e Universidade Jiao Tong de Xangai lançam novo modelo de linguagem de voz LSLM: fala e escuta simultaneamente

O laboratório de inteligência artificial X-LANCE da Universidade de Jiaotong de Xangai, em colaboração com a ByteDance, criou o modelo de linguagem full-duplex LSLM (Listen-Speak Language Model), permitindo que assistentes de IA escutem e falem simultaneamente, alcançando uma interação em tempo real.

Enquanto você conversa com um assistente de IA, se surgir uma questão importante, você não precisa esperar que ele termine de falar. Pode interromper e fazer sua pergunta. O assistente de IA entenderá e responderá imediatamente, com a naturalidade e fluidez de uma conversa humana. Isso não é mais ficção científica, mas sim realidade.

A principal vantagem do LSLM é sua capacidade de "ouvir e falar ao mesmo tempo". Este modelo inovador não apenas escuta sons externos enquanto fala, mas também suporta interação de voz em tempo real, mesmo em ambientes ruidosos. Ele integra habilmente os canais de audição e fala, processando simultaneamente a entrada e a geração de voz.

Os modelos tradicionais de linguagem de voz (SLM) só permitem conversas alternadas e não conseguem lidar com interrupções imediatas em cenários de fala real. O LSLM resolve esse problema, tornando a conversa entre IA e humanos mais natural. Ele utiliza um sistema de texto para fala (TTS) baseado em decodificador token, combinado com um codificador de aprendizado autossupervisionado em fluxo (SSL), para alcançar a geração autorregressiva em tempo real e a detecção de mudança de turno de diálogo.

A equipe de pesquisa explorou três estratégias: fusão precoce, fusão intermediária e fusão tardia. A fusão intermediária alcançou o melhor equilíbrio entre geração de voz e interação em tempo real. Por meio de duas configurações experimentais, FDM baseado em comandos e FDM baseado em som, o LSLM demonstrou forte resistência a ruídos e alta sensibilidade a instruções diversas.

Ainda mais surpreendente é que o LSLM alcançou capacidade de comunicação dupla com impacto mínimo nos sistemas existentes. Isso significa que ele pode ser integrado perfeitamente a sistemas de IA existentes, melhorando significativamente a experiência do usuário sem exigir uma reconstrução completa da estrutura.

As perspectivas de aplicação do LSLM são vastas. No futuro, em casa, no escritório ou em locais públicos, os sistemas de diálogo poderão interagir com humanos em tempo real de forma mais natural. Isso não apenas mudará a maneira como nos comunicamos com máquinas, mas também poderá remodelar todo o cenário da interação homem-máquina.

Na demonstração tecnológica, a equipe de pesquisa comparou o desempenho do TTS tradicional e do LSLM em ambientes limpos e ruidosos, mostrando as vantagens do LSLM. Eles também ilustraram graficamente a evolução dos modelos de linguagem de voz de simplex, half-duplex para full-duplex, permitindo uma compreensão mais intuitiva da importância dessa inovação tecnológica.

Com o amadurecimento da tecnologia LSLM, podemos esperar que os assistentes de IA do futuro ofereçam aos usuários uma experiência de interação mais rica, fluida e humana. Conversar com uma IA de forma natural e coerente pode se tornar tão fácil quanto conversar com um amigo.

Esta pesquisa não apenas tem importância acadêmica, mas também abre novas possibilidades para aplicações comerciais de tecnologias de interação de voz. O surgimento do LSLM marca nossa entrada em uma nova era de interação com IA, onde os limites entre diálogo humano e máquina se tornarão cada vez mais tênues, e a fusão entre tecnologia e humanidade atingirá um novo nível.

Endereço do projeto: https://top.aibase.com/tool/lslm

Notícias e Informações de IA

ByteDance e Universidade Jiao Tong de Xangai lançam novo modelo de linguagem de voz LSLM: fala e escuta simultaneamente

AIbase基地