Assistentes de voz estão se tornando parte integrante de nossas vidas, mas os assistentes de voz digitais existentes costumam ser monótonos e carecem de elementos emocionais e humanizados na interação com o usuário. Para solucionar isso, a equipe Sesame está trabalhando para atingir um novo conceito de "presença vocal", tornando os assistentes digitais mais autênticos, compreensíveis e valorizados nas conversas.
O objetivo principal da Sesame é criar um companheiro digital que não seja apenas uma ferramenta para processar solicitações, mas um parceiro capaz de manter conversas reais. Esses companheiros digitais visam construir confiança e segurança por meio da interação com os usuários, proporcionando uma comunicação mais rica e profunda no dia a dia. Para isso, a equipe Sesame concentra-se em alguns componentes-chave: inteligência emocional, dinâmica da conversa, consciência contextual e características de personalidade consistentes.
A inteligência emocional permite que o assistente de voz compreenda e responda aos estados emocionais do usuário. Não se limita à compreensão de comandos de voz, mas busca perceber as mudanças emocionais na fala para fornecer feedback mais apropriado. Em segundo lugar, a dinâmica da conversa enfatiza o ritmo natural que o assistente de voz deve ter durante a interação, incluindo pausas oportunas, ênfase tonal adequada e interrupções, tornando a conversa mais fluida e natural.
Além disso, a consciência contextual é crucial. Exige que o assistente de voz ajuste o tom e o estilo de acordo com o contexto e histórico da conversa. Essa capacidade permite que o assistente digital seja apropriado em diferentes situações, aumentando a satisfação do usuário. Finalmente, características de personalidade consistentes significam que o assistente de voz deve manter uma personalidade e estilo relativamente consistentes em todas as conversas, aumentando a confiança do usuário.
No entanto, alcançar o objetivo da "presença vocal" não é fácil. A equipe Sesame fez progressos graduais em vários aspectos, como personalidade, memória, expressividade e adequação. Recentemente, a equipe demonstrou alguns resultados experimentais na geração de fala em conversas, especialmente na otimização da cordialidade e expressividade, mostrando todo o potencial do seu método.
Em termos técnicos, a equipe Sesame propôs um novo método chamado "Modelo de Voz Conversacional" (CSM - Conversational Speech Model) para superar as deficiências dos modelos tradicionais de texto para fala (TTS). Esse método utiliza a arquitetura Transformer para gerar fala mais natural e coerente. O CSM não apenas processa o aprendizado multimodal de texto e áudio, mas também pode ajustar a saída com base no histórico da conversa, resolvendo assim as deficiências dos modelos tradicionais na compreensão do contexto.
Para verificar a eficácia do modelo, a equipe Sesame utilizou uma grande quantidade de dados de áudio públicos para treinamento, preparando amostras de treinamento por meio de transcrição e segmentação. Eles treinaram modelos de diferentes escalas e obtiveram bons resultados em métricas de avaliação objetivas e subjetivas. Embora a naturalidade e a adaptabilidade da fala do modelo estejam próximas do nível humano, ainda há espaço para melhorias em contextos de conversa específicos.
De acordo com as amostras fornecidas pela equipe, as criações geradas quase não apresentam traços de IA, sendo extremamente realistas.
A equipe Sesame planeja disponibilizar seu trabalho de pesquisa em código aberto para que a comunidade possa participar de experimentos e melhorias. Essa iniciativa ajudará a acelerar o desenvolvimento da IA conversacional e, ao expandir a escala do modelo e o suporte a idiomas, pretende abranger mais cenários de aplicação. Além disso, a equipe também planeja explorar como utilizar modelos de linguagem pré-treinados para construir modelos multimodais.
Demonstração do projeto: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Destaques:
🌟 A equipe Sesame está comprometida em alcançar a "presença vocal", fazendo com que os assistentes digitais não apenas executem comandos, mas também mantenham conversas reais.
🔧 Por meio do "Modelo de Voz Conversacional" (CSM), a equipe alcançou novos avanços na compreensão contextual e na geração de fala.
🌐 A equipe planeja disponibilizar os resultados da pesquisa em código aberto e expandir o suporte a idiomas para impulsionar o desenvolvimento da IA conversacional.