Teste em escala de cinza do recurso de voz do GPT-4o: conta piadas, imita miados de gato e até ajuda a praticar idiomas

A cena do filme de ficção científica "Her" parece estar se tornando realidade. O recurso de voz do GPT-4o finalmente iniciou seu teste beta, e alguns usuários do ChatGPT Plus já estão experimentando esse novo recurso emocionante. Essa inovação da OpenAI não apenas permite que a IA conte piadas, imite miados de gato, mas também pode servir como um "treinador de segundo idioma" para ajudar na prática oral.

O modo de voz do GPT-4o proporciona uma experiência de conversa mais natural e em tempo real. Os usuários podem interromper a IA a qualquer momento, e ela consegue até mesmo perceber e responder às emoções do usuário. Espera-se que todos os usuários do ChatGPT Plus possam usar esse recurso no outono deste ano. Mais emocionante ainda, as funções de vídeo e compartilhamento de tela também serão lançadas em breve, permitindo que os usuários interajam com o ChatGPT "cara a cara".

A capacidade de saída do GPT-4o também foi significativamente aprimorada. O número de tokens de saída do novo modelo aumentou de 4.000 para 64.000, o que significa que é possível obter conteúdo equivalente a quatro roteiros completos de longa-metragem de uma só vez. A OpenAI lançou discretamente esse novo modelo beta, gpt-4o-64k-output-alpha, em seu site oficial.

Para garantir segurança e qualidade, a OpenAI vem testando rigorosamente o recurso de voz do GPT-4o nos últimos meses. Eles trabalharam com mais de 100 testadores de segurança (red team) para testar 45 idiomas e treinaram o modelo para usar apenas 4 vozes predefinidas, a fim de proteger a privacidade do usuário. Além disso, a filtragem de conteúdo é essencial, e a equipe tomou medidas para impedir a geração de conteúdo violento e com direitos autorais.

Os resultados dos testes do modo de voz do GPT-4o pelos usuários são impressionantes. Alguns descobriram que ele pode responder rapidamente às perguntas, com quase nenhum atraso; outros o usaram para imitar diferentes vozes e sotaques; e outros ainda o usaram como comentarista de partidas de futebol, ou mesmo para contar histórias em chinês com vivacidade. Esses exemplos demonstram a poderosa capacidade do GPT-4o em reconhecimento e geração de voz.

Vale mencionar que, embora a OpenAI afirme que os recursos de vídeo e compartilhamento de tela serão lançados posteriormente, alguns usuários já tiveram acesso antecipado a essas funções. Por exemplo, um usuário mostrou ao ChatGPT a caminha que preparou para seu novo gatinho, e o ChatGPT, após ver a foto, comentou que "deve ser muito confortável" e perguntou carinhosamente sobre o gato.

Além disso, o recurso de saída longa do GPT-4o também foi lançado silenciosamente. A OpenAI anunciou oficialmente que está disponibilizando a versão alfa do GPT-4o para testadores, com suporte para saída de até 64K tokens por solicitação, equivalente a 200 páginas de romance. O lançamento desse recurso se baseia na demanda dos usuários por conteúdo de saída mais longo.

No entanto, uma saída mais longa também significa maior capacidade de computação e preço. O preço da saída longa do GPT-4o é de US$ 6 por milhão de tokens de entrada e US$ 18 por milhão de tokens de saída, um aumento em relação aos modelos anteriores. Apesar disso, alguns pesquisadores acreditam que a saída longa é principalmente usada em casos de uso como conversão de dados, sendo muito útil para codificação, melhoria de escrita, etc.

Em resumo, o recurso de voz e a capacidade de saída longa do GPT-4o, sem dúvida, proporcionarão aos usuários uma experiência de interação mais rica e conveniente. Temos razões para acreditar que, com o avanço contínuo da tecnologia, a IA demonstrará seu valor único em mais áreas.

Notícias e Informações de IA

Teste em escala de cinza do recurso de voz do GPT-4o: conta piadas, imita miados de gato e até ajuda a praticar idiomas

AIbase基地

Notícias de IA Relacionadas Recomendadas

Grok 3 lança recurso de voz em tempo real com 10 modos

Aplicativo Claude ganha recurso de voz: teste limitado da Anthropic permite transcrição de áudio de até 10 minutos

Lançamento do recurso de voz emocional ponta a ponta do ZhiPu QingYan: permite interrupções a qualquer momento e suporta vários idiomas e dialetos

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!