Hoje, a OpenAI anunciou uma atualização para sua API em tempo real, que ainda está em fase de teste. O destaque desta atualização é o lançamento de cinco novas opções de voz, projetadas especificamente para aplicativos de voz para voz, além de uma redução nos custos de cache, tornando-a mais acessível para desenvolvedores.
Entre as cinco novas vozes, a OpenAI exibiu três novas opções em uma postagem no X: Ash, Verse e Ballad (que soa como uma voz britânica). Essas vozes são mais vívidas, ajustáveis e proporcionam uma experiência de comunicação mais natural. A OpenAI menciona em sua documentação da API que esse recurso nativo de voz para voz elimina o processamento intermediário de formato de texto, resultando em baixa latência e saída mais refinada.
No entanto, a OpenAI alerta que, como a API em tempo real ainda está em fase de teste, a autenticação do cliente não está disponível por enquanto. Além disso, o processamento de áudio em tempo real pode ser afetado pelas condições da rede, o que apresenta desafios para a transmissão em larga escala de áudio. A OpenAI destaca que garantir a transmissão confiável de áudio em condições de rede instáveis é uma tarefa complexa.
O desenvolvimento da OpenAI em tecnologia de voz também tem sido controverso. Em março deste ano, lançaram o "Voice Engine", uma plataforma de clonagem de voz que busca competir com a ElevenLabs, mas que foi disponibilizada apenas para um pequeno número de pesquisadores. Após a demonstração do GPT-4o e dos modelos de voz, a OpenAI suspendeu em maio o uso da voz chamada "Sky", devido à insatisfação da atriz de Hollywood Scarlett Johansson, que considerou a voz muito semelhante à sua.
Em setembro, a OpenAI lançou modos de voz avançados para seus assinantes pagos, incluindo usuários do ChatGPT Plus, Enterprise, Teams e Edu. Com essa tecnologia de voz para voz, as empresas podem gerar respostas em tempo real mais rapidamente, melhorando significativamente a eficiência do atendimento ao cliente.
Redução de custos, mais de 50%
Sobre a precificação da API em tempo real, a OpenAI, em lançamentos anteriores, cobrou US$ 0,06 por minuto de entrada de áudio e US$ 0,24 por saída de áudio, o que era relativamente caro para os desenvolvedores. No entanto, com esta atualização, o custo de entrada de texto em cache será reduzido em 50%, enquanto o custo de entrada de áudio em cache terá um desconto de até 80%.
No Dia do Desenvolvedor, a OpenAI anunciou o "Prompt Caching", um novo recurso que armazena prompts de contexto frequentemente solicitados na memória do modelo, reduzindo assim o número de tokens necessários para gerar respostas. Ao reduzir os preços de entrada, a OpenAI espera atrair mais desenvolvedores para usar sua API.
Além disso, outras empresas, como a Anthropic, também lançaram recursos de cache semelhantes para aumentar o apelo de suas tecnologias de voz.
Destaques:
🌟 Cinco novas vozes naturais adicionadas, melhorando a experiência do aplicativo de voz
💰 A API em tempo real reduz os custos de entrada por meio do cache, tornando-a mais acessível para desenvolvedores
⚡ O processamento de áudio em tempo real é afetado pelas condições da rede; a confiabilidade precisa ser considerada