Qwen2.5-Omni é o modelo multimodal principal de nova geração lançado pela equipe Alibaba Cloud Tongyi Qianwen. Este modelo foi projetado especificamente para percepção multimodal abrangente, podendo processar perfeitamente várias formas de entrada, como texto, imagem, áudio e vídeo, e gerar simultaneamente saída de texto e síntese de voz natural por meio de resposta em tempo real. Sua inovadora arquitetura Thinker-Talker e a tecnologia de codificação de posição TMRoPE o tornam excelente em tarefas multimodais, especialmente na compreensão de áudio, vídeo e imagem. Este modelo superou modelos unimodais de escala semelhante em vários testes de referência, demonstrando desempenho poderoso e amplo potencial de aplicação. Atualmente, o Qwen2.5-Omni já foi lançado em código aberto no Hugging Face, ModelScope, DashScope e GitHub, oferecendo aos desenvolvedores uma ampla gama de cenários de uso e suporte de desenvolvimento.