O modelo principal da OpenAI, GPT-4o ("o" representando "omni"), chamou a atenção por suas capacidades de compreensão de áudio em seu lançamento em maio. O modelo GPT-4o consegue responder a entradas de áudio em uma média de 320 milissegundos, semelhante ao tempo de resposta humana em uma conversa típica.

ChatGPT OpenAI Inteligência Artificial (1)

A OpenAI também anunciou que o recurso de modo de voz do ChatGPT utilizará as capacidades de áudio do modelo GPT-4o para fornecer aos usuários uma experiência de conversa de voz perfeita. Sobre a capacidade de voz do GPT-4o, a equipe da OpenAI escreveu:

"Com o GPT-4o, treinamos um modelo totalmente novo, treinando de ponta a ponta três modalidades: texto, visual e áudio. Ou seja, todas as entradas e saídas são processadas pela mesma rede neural. Como o GPT-4o é o nosso primeiro modelo a combinar todas essas modalidades, ainda estamos apenas explorando o potencial e as limitações do modelo."

Em junho, a OpenAI anunciou planos para lançar uma versão alfa de seu modo de voz avançado para um pequeno grupo de usuários do ChatGPT Plus mais tarde, mas o plano foi adiado por um mês devido à necessidade de melhorar a capacidade do modelo de detectar e rejeitar certos conteúdos. Além disso, a OpenAI estava preparando sua infraestrutura para escalar para milhões de usuários, mantendo ao mesmo tempo a capacidade de resposta em tempo real.

Agora, o CEO da OpenAI, Sam Altman, confirmou via X que a versão alfa do modo de voz começará a ser lançada para assinantes do ChatGPT Plus na próxima semana.

image.png

O modo de voz atual do ChatGPT não é intuitivo devido a um atraso médio de 2,8 segundos (GPT3.5) e 5,4 segundos (GPT-4). O modo de voz avançado baseado em GPT-4o, que será lançado em breve, permitirá que os assinantes do ChatGPT realizem conversas fluidas sem atrasos.

Além disso, a OpenAI lançou hoje o aguardado SearchGPT, sua nova abordagem para a experiência de pesquisa na web. Atualmente, o SearchGPT é um protótipo que oferece recursos de pesquisa de IA, fornecendo respostas precisas e rápidas de fontes claras e relevantes. Você pode aprender mais aqui.

Destaques:

- Os assinantes do ChatGPT Plus receberão um novo recurso de modo de voz na próxima semana, permitindo uma experiência de conversa fluida sem atrasos.

- O modelo GPT-4o combina treinamento de três modalidades: texto, visual e áudio, permitindo que a OpenAI explore mais seu potencial e limitações.

- A OpenAI também lançou o SearchGPT, oferecendo recursos de pesquisa de IA rápidos e precisos.