Em 13 de março, a empresa Sesame lançou seu mais recente modelo de síntese de voz, o CSM, gerando grande interesse na indústria. De acordo com a empresa, o CSM utiliza uma arquitetura de aprendizado multimodal baseada em Transformer de ponta a ponta, capaz de compreender o contexto e gerar voz natural e expressiva, com qualidade de som impressionante e próxima à voz humana.
O modelo suporta geração de voz em tempo real, podendo processar entradas de texto e áudio. Os usuários também podem controlar características como tom, entonação, ritmo e emoção através de ajustes de parâmetros, demonstrando alta flexibilidade.
O CSM é considerado um avanço significativo na tecnologia de voz de IA. Sua naturalidade de voz é tão alta que é "quase impossível diferenciar se é uma síntese artificial ou uma voz humana". Alguns usuários gravaram vídeos mostrando o desempenho quase sem latência do CSM, chamando-o de "o melhor modelo já experimentado". Anteriormente, a Sesame lançou uma versão menor de código aberto, o CSM-1B, que suporta a geração de voz coerente em conversas de várias rodadas, recebendo amplos elogios.
Atualmente, o CSM é principalmente treinado em inglês e apresenta desempenho excelente, mas ainda tem limitações no suporte a vários idiomas. Atualmente, ele não suporta chinês, mas espera-se que essa funcionalidade seja expandida no futuro.
A Sesame afirma que irá disponibilizar parte dos resultados de pesquisa em código aberto, e desenvolvedores da comunidade já estão discutindo seu potencial no GitHub. O CSM não se aplica apenas à IA conversacional, mas também pode impulsionar a inovação na experiência de interação de voz em áreas como educação e entretenimento. Especialistas da indústria acreditam que o CSM pode remodelar o padrão dos assistentes de voz de IA, proporcionando uma interação humano-computador mais natural.