OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Oct 18, 2024

750

A OpenAI lidera novamente a onda de tecnologia de inteligência artificial, lançando o novo modelo gpt-4o-audio-preview. Este modelo não apenas demonstra capacidades surpreendentes em geração e análise de voz, mas também abre novas possibilidades para a interação homem-máquina. Vamos explorar os recursos e aplicações potenciais deste modelo inovador.

O gpt-4o-audio-preview possui três funções principais: primeiro, ele pode gerar respostas de voz naturais e fluidas com base em texto, fornecendo suporte poderoso para assistentes de voz e atendimento ao cliente virtual. Segundo, o modelo possui a capacidade de analisar as emoções, o tom e a entonação da entrada de áudio, um recurso com amplas perspectivas de aplicação em computação afetiva e análise da experiência do usuário. Finalmente, ele suporta interação de voz para voz, onde o áudio pode servir como entrada e saída, estabelecendo a base para um sistema de interação de voz completo.

Em comparação com a API em tempo real existente da OpenAI, o gpt-4o-audio-preview concentra-se mais nos detalhes do processamento de voz. Ele se destaca na geração de voz, análise de emoções e interação de voz, prestando especial atenção ao tratamento de características sutis como tom e emoção. Em contraste, a API em tempo real concentra-se mais no processamento de dados em tempo real, adequado para cenários que exigem feedback imediato, como conversão de voz para texto em tempo real ou tradução instantânea em aplicações interativas contínuas.

A flexibilidade do gpt-4o-audio-preview reside em sua capacidade de suportar várias combinações de modos. Os usuários podem optar por gerar texto e saída de áudio a partir da entrada de texto, ou usar a entrada de áudio para obter texto e saída de voz. Além disso, ele suporta conversão de áudio para texto e modos de entrada mistos, oferecendo aos desenvolvedores uma ampla gama de opções.

Em termos de preços, a OpenAI adotou um modelo de cobrança baseado em tokens. O preço da entrada de texto é relativamente baixo, cerca de US$ 5 por milhão de tokens. A saída de texto é um pouco mais alta, cerca de US$ 15 por milhão de tokens. O custo do processamento de áudio é relativamente alto, com US$ 100 por milhão de tokens de entrada (cerca de US$ 0,06 por minuto) e a saída de áudio chega a US$ 200 por milhão de tokens (cerca de US$ 0,24 por minuto). Essa estratégia de preços reflete a complexidade e os requisitos de recursos computacionais do processamento de áudio.

O lançamento do gpt-4o-audio-preview certamente trará mudanças transformadoras para vários setores. No setor de atendimento ao cliente, ele pode fornecer uma experiência de interação de voz mais natural e emocional. Na educação, essa tecnologia pode ser usada para desenvolver assistentes de aprendizado de idiomas inteligentes, ajudando os alunos a melhorar sua pronúncia e tom. Na indústria do entretenimento, espera-se que impulsione a síntese de voz e a interação de personagens virtuais mais realistas. Além disso, em tecnologias assistivas, o gpt-4o-audio-preview pode fornecer serviços de conversão de voz para texto mais precisos para pessoas com deficiência auditiva ou descrições de voz mais ricas para pessoas com deficiência visual.

Detalhes: https://platform.openai.com/docs/guides/audio/quickstart

Mercedes-Benz e Google se unem para lançar assistente de voz inteligente MBUX para carros

Na CES 2024, a Mercedes-Benz anunciou um novo assistente virtual para carros em parceria com o Google. Baseado na mais recente plataforma de IA para carros do Google Cloud, o assistente pode "manter conversas e referenciar informações" enquanto o usuário dirige. O primeiro carro a apresentar o assistente é o novo Mercedes CLA, que vem com o sistema operacional MB.OS de próxima geração e uma versão atualizada do assistente virtual MBUX. Atualmente, o sistema de assistente de voz MBUX da Mercedes pode ser ativado dizendo "Hey,

Rivian anuncia assistente de voz com IA para 2025, melhorando a experiência inteligente do proprietário

Recentemente, Wassym Bensaid, diretor de software da Rivian, confirmou em um showroom em Veneza, Califórnia, que os modelos Rivian R1T e R1S receberão um novo assistente de voz com IA em 2025. Este assistente oferecerá recursos de texto para voz para mensagens, com o objetivo de melhorar a experiência inteligente dentro do veículo. Bensaid disse que a equipe começou a desenvolver a integração de voz para mensagens de texto há dois anos, mas as soluções existentes não atenderam aos padrões da empresa. Ele apontou que, embora...

Kunlun Wanwei lança o modelo de linguagem avançado "TianGong 4.0" e o assistente de voz em tempo real Skyo

A Kunlun Wanwei Technologies Co., Ltd. anunciou recentemente o lançamento de seu mais novo produto, o modelo de linguagem avançado "TianGong 4.0" (Skywork4o) e o assistente de voz em tempo real Skyo. Este avanço marca o desenvolvimento aprofundado da empresa na área de inteligência artificial, com foco em oferecer uma experiência de usuário superior. O Skyo é um produto de interação de voz inteligente, com capacidade de resposta rápida e diálogo multilíngue, podendo iniciar conversas e interromper em tempo real. O produto também possui recursos de reação emocional e personalização de voz, com o objetivo de fornecer aos usuários uma companhia acolhedora e atenciosa.

Cerence e Kawasaki se unem para lançar sistema de assistência à condução com IA e assistente de voz com IA

Recentemente, a Cerence Inc. estabeleceu uma nova parceria com a Kawasaki Motors para transformar a experiência do usuário em sua linha de veículos de duas rodas. Integrando o Cerence Ride, plataforma da empresa projetada especificamente para veículos de duas rodas, a Kawasaki fornecerá aos motociclistas as informações necessárias, com acesso a navegação, controle do veículo e aplicativos na nuvem por meio de um assistente de voz com IA intuitivo. Com o aumento dos preços do combustível e o congestionamento em cidades densamente povoadas, os veículos de duas rodas estão se tornando cada vez mais populares, aumentando a necessidade dos motociclistas de acesso a informações instantâneas na estrada. Cerence