A ElevenLabs, uma startup de destaque em clonagem e geração de voz com inteligência artificial, lançou recentemente seu mais novo modelo de voz para texto: o Scribe v1. O modelo afirma atingir a maior precisão em várias línguas, e os usuários podem experimentá-lo através do site oficial.

QQ_1740621264139.png

De acordo com os testes de referência da ElevenLabs, o Scribe superou o Gemini 2.0 Flash do Google, o Whisper v3 da OpenAI e o Deepgram Nova-3 na conversão precisa de fala em texto, alcançando uma taxa de erro inigualável. A empresa afirma que o Scribe suporta a transcrição de alta precisão em 99 idiomas, incluindo idiomas anteriormente negligenciados, como sérvio, cantonês e malaiala.

Flavio Schneider, pesquisador-chefe da ElevenLabs, declarou na plataforma X que o Scribe é o "modelo de compreensão de áudio mais inteligente" lançado pela empresa até hoje. Ele enfatizou que o Scribe não é apenas uma ferramenta de transcrição, mas também compreende o conteúdo de áudio, podendo detectar eventos não verbais (como risos, efeitos sonoros, música e ruído de fundo) e analisar conteúdo de áudio longo em ambientes complexos para distinguir falantes com precisão. Vale ressaltar que o Scribe consegue identificar e isolar até 32 falantes diferentes em um mesmo arquivo de áudio.

QQ_1740621326377.png

A ElevenLabs alerta os usuários que o Scribe "é mais adequado para situações que exigem transcrição de alta precisão, e não para transcrição em tempo real". A empresa também planeja lançar uma versão de baixa latência para expandir seu uso em aplicações em tempo real.

Com base nos resultados de referência do FLEURS e do Common Voice, o Scribe apresentou excelente desempenho no tratamento de desafios de áudio do mundo real, especialmente em relação à taxa de erro de palavras em italiano (98,7% de precisão) e inglês (96,7% de precisão), atingindo os menores índices.

O Scribe já está disponível através do site e da API da ElevenLabs, com preço de US$ 0,40 por hora de áudio de entrada. Um desconto de 50% será aplicado nas próximas seis semanas. Além disso, uma versão de baixa latência para aplicações em tempo real está em desenvolvimento.

Para tomadores de decisão em empresas, o Scribe oferece uma ferramenta escalável para transcrição de alta precisão, adequada para setores que necessitam de documentação automatizada, transcrição de reuniões e acessibilidade de conteúdo. O processamento de alta precisão em vários idiomas também beneficiará empresas multinacionais, empresas de mídia e aplicações de suporte ao cliente.

É importante notar que o lançamento do Scribe ocorreu no mesmo dia que o lançamento do modelo de texto para voz Octave da concorrente Hume. O Octave é uma ferramenta de texto para voz baseada em modelos de linguagem grandes, que permite aos usuários personalizar a voz gerada por IA de acordo com suas necessidades emocionais, destinada à criação de conteúdo, como audiolivros, podcasts e dublagem de videogames. Embora o Scribe e o Octave tenham funções diferentes, seus lançamentos refletem a crescente competição no mercado de modelos de áudio impulsionados por IA.

Acesso ao produto: https://elevenlabs.io/blog/meet-scribe

Destaques:

🌟 O Scribe v1 é o mais novo modelo de voz para texto da ElevenLabs, com precisão recorde em várias línguas.

🗣️ Suporta 99 idiomas, consegue distinguir até 32 falantes diferentes e se adapta a ambientes de áudio complexos.

💰 O preço atual é de US$ 0,40 por hora, com 50% de desconto nas próximas seis semanas. Uma versão de baixa latência está em desenvolvimento.