Recentemente, a Alibaba lançou o novo modelo de voz de código aberto Qwen2-Audio, baseado em seu Qwen-Audio. Este modelo não apenas se destaca no reconhecimento de voz, tradução e análise de áudio, mas também apresenta melhorias significativas em funcionalidade e desempenho. O Qwen2-Audio oferece versões básicas e com ajuste fino de instruções, permitindo que os usuários façam perguntas ao modelo de áudio por voz e reconheçam e analisem o conteúdo.

image.png

Por exemplo, um usuário pode pedir a uma mulher para falar algo, e o Qwen2-Audio pode determinar sua idade ou analisar suas emoções; se uma entrada de áudio for ruidosa, o modelo pode analisar os diferentes componentes de som. O Qwen2-Audio suporta vários idiomas, incluindo chinês, cantonês, francês, inglês e japonês, o que facilita muito o desenvolvimento de aplicativos de análise de sentimentos e tradução.

Acesso ao produto: https://top.aibase.com/tool/qwen2-audio

Em comparação com a primeira geração, o Qwen-Audio, o Qwen2-Audio foi totalmente otimizado em termos de arquitetura e desempenho. Na fase de pré-treinamento, este novo modelo utilizou prompts de linguagem mais naturais, em vez das etiquetas complexas em camadas anteriores. Esta melhoria permite que o modelo entenda e responda a várias tarefas com mais facilidade, e sua capacidade de generalização também foi significativamente aprimorada.

A capacidade de seguir instruções do Qwen2-Audio também foi muito aprimorada, permitindo que ele compreenda as instruções do usuário com mais precisão. Por exemplo, quando um usuário dá a instrução "Analise a tendência emocional neste áudio", o Qwen2-Audio pode determinar com precisão as emoções contidas no áudio. Além disso, o modelo introduziu dois modos: bate-papo por voz e análise de áudio, tornando a interação de voz do usuário mais natural. No modo de análise de áudio, o Qwen2-Audio pode analisar profundamente vários tipos de áudio e fornecer resultados de análise detalhados e precisos.

Para garantir que a saída do modelo atenda às expectativas humanas, o Qwen2-Audio também introduziu técnicas avançadas, como ajuste fino supervisionado e otimização de preferência direta. Ao interagir com humanos, o modelo parece mais natural e preciso.

Em termos de testes de desempenho, o Qwen2-Audio apresentou excelente desempenho em vários benchmarks principais, especialmente na precisão de reconhecimento de voz e tradução, superando o Whisper-large-v3 da OpenAI. O desempenho deste novo modelo não apenas gerou ampla atenção na indústria, mas também prenuncia um novo futuro para a tecnologia de voz.

Destaques:

🌟 O Qwen2-Audio é o mais recente modelo de voz de código aberto da Alibaba, suporta vários idiomas e possui poderosas capacidades de reconhecimento e análise.

🚀 Em comparação com a geração anterior, o Qwen2-Audio foi significativamente otimizado em termos de desempenho e arquitetura, melhorando sua capacidade de compreensão e resposta.

🏆 Em vários testes de desempenho, o Qwen2-Audio superou o Whisper da OpenAI, demonstrando forte competitividade.