Em 27 de março, a equipe do Qwen da Alibaba Cloud anunciou o lançamento do Qwen2.5-Omni, o novo modelo multimodais ponta a ponta de última geração da família de modelos Qwen. Este novo modelo foi projetado especificamente para percepção multimodais completa, capaz de processar perfeitamente vários tipos de entrada, incluindo texto, imagens, áudio e vídeo, e gerar simultaneamente texto e saída de síntese de fala natural por meio de resposta em tempo real.
O Qwen2.5-Omni utiliza a inovadora arquitetura Thinker-Talker, um modelo multimodais ponta a ponta projetado para suportar a compreensão intermodal de texto, imagens, áudio e vídeo, e gerar respostas de texto e fala natural de forma contínua. O módulo Thinker, semelhante a um cérebro, processa as entradas multimodais e gera representações semânticas de alto nível e o conteúdo de texto correspondente; o módulo Talker, semelhante a um órgão vocal, recebe as representações semânticas e o texto gerados em tempo real pelo módulo Thinker, sintetizando unidades de fala discretas de forma contínua. Além disso, o modelo propõe uma nova técnica de codificação posicional, TMRoPE (Time-aligned Multimodal RoPE), que alinha os dados no eixo do tempo para sincronizar com precisão as entradas de vídeo e áudio.
O modelo apresenta um desempenho excepcional na interação em tempo real de áudio e vídeo, suportando entrada em blocos e saída imediata, permitindo interação totalmente em tempo real. Em termos de naturalidade e estabilidade da geração de fala, o Qwen2.5-Omni supera muitas soluções alternativas contínuas e não contínuas existentes. Em termos de desempenho multimodais, o Qwen2.5-Omni demonstra desempenho superior em testes de referência com modelos unimodais de tamanho comparável, com capacidade de áudio superior ao Qwen2-Audio de tamanho semelhante e desempenho equivalente ao Qwen2.5-VL-7B. Além disso, o Qwen2.5-Omni demonstra desempenho comparável no seguimento de instruções de fala ponta a ponta em comparação com o processamento de entrada de texto, e apresenta resultados excelentes em testes de referência como MMLU (compreensão de conhecimento geral) e GSM8K (raciocínio matemático).
O Qwen2.5-Omni supera modelos unimodais e modelos de código fechado de tamanho semelhante em várias modalidades, incluindo imagens, áudio e áudio/vídeo, como Qwen2.5-VL-7B, Qwen2-Audio e Gemini-1.5-pro. No OmniBench, um benchmark multimodais, o Qwen2.5-Omni alcançou desempenho de ponta (SOTA). Em tarefas unimodais, o Qwen2.5-Omni demonstrou excelente desempenho em várias áreas, incluindo reconhecimento de fala (Common Voice), tradução (CoVoST2), compreensão de áudio (MMAU), raciocínio de imagem (MMMU, MMStar), compreensão de vídeo (MVBench) e geração de fala (Seed-tts-eval e avaliação subjetiva de naturalidade).
Atualmente, o Qwen2.5-Omni está disponível em código aberto no Hugging Face, ModelScope, DashScope e GitHub. Os usuários podem experimentar a função interativa por meio de uma demonstração ou iniciar bate-papos de voz ou vídeo diretamente por meio do Qwen Chat, para uma experiência imersiva do poderoso desempenho do novo modelo Qwen2.5-Omni.
Qwen Chat: https://chat.qwenlm.ai
Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope: https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
Experiência de demonstração: https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo