Após gerar algum interesse na área de IA de voz, a OpenAI não parou de explorar este campo. A criadora do ChatGPT lançou três novos modelos de voz desenvolvidos internamente: gpt-4o-transcribe, gpt-4o-mini-transcribe e gpt-4o-mini-tts. O mais notável é o gpt-4o-transcribe.

Atualmente, esses novos modelos estão disponíveis para desenvolvedores terceirizados por meio de uma interface de programação de aplicativos (API). Os desenvolvedores podem usá-los para criar aplicativos mais inteligentes. A OpenAI também oferece um site de demonstração chamado OpenAI.fm para uso pessoal.

QQ_1742518825138.png

Recursos principais revelados

Então, o que torna o gpt-4o-transcribe tão especial? Em poucas palavras, é uma versão aprimorada do modelo de transcrição de voz de código aberto Whisper, lançado pela OpenAI há dois anos, com o objetivo de fornecer uma taxa de erro de texto mais baixa e um desempenho mais robusto.

De acordo com dados oficiais da OpenAI, em testes com 33 idiomas padrão do setor, o gpt-4o-transcribe apresentou uma redução significativa na taxa de erro em comparação com o Whisper. Em inglês, a taxa de erro é de apenas 2,46%! Isso representa um grande avanço para cenários que exigem transcrição de voz de alta precisão.

Ainda mais importante, este novo modelo mantém um desempenho excelente em diversos ambientes complexos. Seja em ambientes ruidosos, com diferentes sotaques ou com velocidades de fala variáveis, o gpt-4o-transcribe fornece resultados de transcrição mais precisos, além de suportar mais de 100 idiomas.

Para melhorar ainda mais a precisão da transcrição, o gpt-4o-transcribe inclui tecnologias de redução de ruído e detecção de atividade de fala semântica.

O técnico da OpenAI, Jeff Harris, explicou que esta última ajuda o modelo a determinar se o orador terminou uma ideia completa, evitando erros de pontuação e melhorando a qualidade geral da transcrição. Além disso, o gpt-4o-transcribe suporta transcrição de voz para texto em tempo real, permitindo que os desenvolvedores insiram áudio continuamente e obtenham resultados de texto em tempo real, tornando a conversa mais natural.

É importante notar que a família de modelos gpt-4o-transcribe atualmente não possui a funcionalidade de "separação de locutores" (diarization). Ou seja, ele se concentra principalmente em transcrever o áudio recebido (que pode conter várias vozes) em texto, sem distinguir ou marcar os diferentes locutores.

Embora isso possa ser uma limitação em alguns cenários onde a distinção entre os oradores é necessária, sua vantagem em melhorar a precisão geral da transcrição ainda é significativa.

Prioridade para desenvolvedores: a interface de API já está disponível

Atualmente, o gpt-4o-transcribe está disponível para desenvolvedores por meio da API da OpenAI. Isso significa que os desenvolvedores podem integrar rapidamente essa poderosa capacidade de transcrição de voz em seus aplicativos, oferecendo aos usuários uma experiência de interação de voz mais conveniente.

Conforme demonstrado pela OpenAI em uma transmissão ao vivo, para aplicativos já construídos com base em grandes modelos de linguagem de texto como o GPT-4o, adicionar recursos de interação de voz requer apenas cerca de nove linhas de código. Por exemplo, um aplicativo de comércio eletrônico pode implementar rapidamente respostas de voz a consultas de clientes sobre informações de pedidos.

No entanto, a OpenAI também mencionou que, devido às necessidades específicas de custo e desempenho do ChatGPT, esses novos modelos não serão aplicados diretamente ao ChatGPT por enquanto, mas espera-se que sejam integrados gradualmente no futuro. Para desenvolvedores que buscam baixa latência e interação de voz em tempo real, a OpenAI recomenda o uso de seus modelos de voz para voz na API em tempo real.

Com sua poderosa capacidade de transcrição de voz, o gpt-4o-transcribe promete se destacar em várias áreas. A OpenAI acredita que cenários como atendimento ao cliente, geração automática de atas de reuniões e assistentes inteligentes baseados em IA são ideais para o uso dessa tecnologia. Algumas empresas que já testaram o novo modelo relataram que os modelos de áudio da OpenAI melhoraram significativamente o desempenho da IA de voz.

Claro, a OpenAI também enfrenta a concorrência de outras empresas de IA de voz, como o modelo Scribe da ElevenLabs, que também apresenta baixa taxa de erro e recurso de separação de locutores. Além disso, o modelo Octave TTS da Hume AI oferece opções de personalização mais sofisticadas em termos de pronúncia e controle emocional. A comunidade de código aberto também está constantemente lançando modelos de voz avançados.

Os novos modelos de voz lançados pela OpenAI, como o gpt-4o-transcribe, demonstram uma capacidade e um potencial significativos na área de transcrição de voz. Embora atualmente voltado principalmente para desenvolvedores, seu valor em melhorar a experiência de interação de voz não pode ser ignorado. No futuro, com o desenvolvimento contínuo da tecnologia, podemos ver o surgimento de mais aplicativos de IA de voz surpreendentes.

Link do site: https://www.openai.fm/