A ElevenLabs lançou recentemente seu mais novo modelo de síntese de voz, o Flash, alegando ser a solução de texto para fala (TTS) mais rápida até hoje, com um atraso de geração de voz de apenas 75 milissegundos (além do atraso do aplicativo e da rede). O Flash é ideal para assistentes de voz conversacionais de baixa latência, e os usuários podem experimentar este novo recurso imediatamente na plataforma de IA conversacional da ElevenLabs.

image.png

O modelo Flash vem em duas versões: o Flash v2 suporta apenas inglês, enquanto o Flash v2.5 suporta 32 idiomas. Ao usar esses dois modelos, os usuários consomem 1 ponto de crédito para cada dois caracteres gerados. Embora a qualidade de áudio e a profundidade emocional do modelo Flash sejam ligeiramente inferiores ao modelo Turbo, seu desempenho de baixa latência o superou em testes cegos, tornando-se a opção mais rápida entre modelos semelhantes.

A equipe técnica da ElevenLabs afirma que o lançamento do modelo Flash impulsionará significativamente a fluidez e a naturalidade da interação humano-computador. Os desenvolvedores podem chamar diretamente o ID do modelo “eleven_flash_v2” e “eleven_flash_v2_5” por meio da API. Referências específicas da API podem ser encontradas no site da ElevenLabs. Com esta inovação, a ElevenLabs espera abrir caminho para mais cenários de interação conversacional de baixa latência e humanizados.

image.png

A ElevenLabs também oferece uma variedade de produtos e soluções, incluindo assistentes de voz personalizados, ferramentas de produção de áudio e estúdios de dublagem, com o objetivo de ajudar usuários e desenvolvedores em diferentes áreas a criar conteúdo de áudio de IA de alta qualidade. Além disso, a ElevenLabs está ativamente engajada em pesquisa e desenvolvimento, melhorando continuamente o nível técnico de seus produtos para atender às crescentes necessidades dos usuários.

Destaques:

🌟 O modelo Flash tem um atraso de geração de voz de apenas 75 milissegundos, ideal para assistentes de voz conversacionais de baixa latência.

🌍 O Flash v2.5 suporta 32 idiomas, e os usuários consomem 1 ponto de crédito para cada dois caracteres gerados.

🚀 Em testes cegos, o modelo Flash superou outros produtos semelhantes, tornando-se a solução de texto para fala mais rápida.