Alibaba lança novo modelo de voz Qwen2-Audio, superando o OpenAI Whisper

Recentemente, a Alibaba lançou o novo modelo de voz de código aberto Qwen2-Audio, baseado em seu Qwen-Audio. Este modelo não apenas se destaca no reconhecimento de voz, tradução e análise de áudio, mas também apresenta melhorias significativas em funcionalidade e desempenho. O Qwen2-Audio oferece versões básicas e com ajuste fino de instruções, permitindo que os usuários façam perguntas ao modelo de áudio por voz e reconheçam e analisem o conteúdo.

Por exemplo, um usuário pode pedir a uma mulher para falar algo, e o Qwen2-Audio pode determinar sua idade ou analisar suas emoções; se uma entrada de áudio for ruidosa, o modelo pode analisar os diferentes componentes de som. O Qwen2-Audio suporta vários idiomas, incluindo chinês, cantonês, francês, inglês e japonês, o que facilita muito o desenvolvimento de aplicativos de análise de sentimentos e tradução.

Acesso ao produto: https://top.aibase.com/tool/qwen2-audio

Em comparação com a primeira geração, o Qwen-Audio, o Qwen2-Audio foi totalmente otimizado em termos de arquitetura e desempenho. Na fase de pré-treinamento, este novo modelo utilizou prompts de linguagem mais naturais, em vez das etiquetas complexas em camadas anteriores. Esta melhoria permite que o modelo entenda e responda a várias tarefas com mais facilidade, e sua capacidade de generalização também foi significativamente aprimorada.

A capacidade de seguir instruções do Qwen2-Audio também foi muito aprimorada, permitindo que ele compreenda as instruções do usuário com mais precisão. Por exemplo, quando um usuário dá a instrução "Analise a tendência emocional neste áudio", o Qwen2-Audio pode determinar com precisão as emoções contidas no áudio. Além disso, o modelo introduziu dois modos: bate-papo por voz e análise de áudio, tornando a interação de voz do usuário mais natural. No modo de análise de áudio, o Qwen2-Audio pode analisar profundamente vários tipos de áudio e fornecer resultados de análise detalhados e precisos.

Para garantir que a saída do modelo atenda às expectativas humanas, o Qwen2-Audio também introduziu técnicas avançadas, como ajuste fino supervisionado e otimização de preferência direta. Ao interagir com humanos, o modelo parece mais natural e preciso.

Em termos de testes de desempenho, o Qwen2-Audio apresentou excelente desempenho em vários benchmarks principais, especialmente na precisão de reconhecimento de voz e tradução, superando o Whisper-large-v3 da OpenAI. O desempenho deste novo modelo não apenas gerou ampla atenção na indústria, mas também prenuncia um novo futuro para a tecnologia de voz.

Destaques:
🌟 O Qwen2-Audio é o mais recente modelo de voz de código aberto da Alibaba, suporta vários idiomas e possui poderosas capacidades de reconhecimento e análise.
🚀 Em comparação com a geração anterior, o Qwen2-Audio foi significativamente otimizado em termos de desempenho e arquitetura, melhorando sua capacidade de compreensão e resposta.
🏆 Em vários testes de desempenho, o Qwen2-Audio superou o Whisper da OpenAI, demonstrando forte competitividade.

Notícias e Informações de IA

Alibaba lança novo modelo de voz Qwen2-Audio, superando o OpenAI Whisper

AIbase基地

Notícias de IA Relacionadas Recomendadas

OnePlus 13 lança novo ColorOS 15.0.0.701 com recurso de reconhecimento de voz AIGC

Modelo de reconhecimento de voz de código aberto FireRedASR do Xiaohongshu, com excelente precisão de reconhecimento em chinês

Novo modelo de reconhecimento de voz de código aberto Moonshine: cinco vezes mais rápido que o OpenAI Whisper

API de reconhecimento de voz Gladia arrecada US$ 16 milhões em Série A para desafiar Amazon, Microsoft e Google