Na área de inteligência artificial, a equipe do laboratório Alibaba Tongyi anunciou recentemente a disponibilização em código aberto de seu mais recente modelo multimodal — R1-Omni. Este modelo combina aprendizado por reforço com métodos de recompensa verificável (RLVR), demonstrando capacidades excepcionais no processamento de informações de áudio e vídeo. O destaque do R1-Omni reside em sua transparência, permitindo-nos entender mais claramente o papel de cada modalidade no processo de tomada de decisão, especialmente em tarefas como reconhecimento de emoções.

image.png

Com o lançamento do DeepSeek R1, o potencial de aplicação do aprendizado por reforço em grandes modelos está sendo continuamente explorado. O método RLVR traz novas ideias de otimização para tarefas multimodais, podendo lidar eficazmente com tarefas complexas como raciocínio geométrico e contagem visual. Embora a pesquisa atual se concentre principalmente na combinação de imagens e texto, a mais recente exploração do laboratório Tongyi expandiu essa área, combinando RLVR com um modelo multimodal de vídeo completo, demonstrando plenamente o amplo potencial de aplicação da tecnologia.

image.png

O R1-Omni, por meio do método RLVR, torna a influência das informações de áudio e vídeo mais intuitiva. Por exemplo, em tarefas de reconhecimento de emoções, o modelo pode mostrar claramente quais sinais de áudio e vídeo desempenharam um papel crucial na determinação da emoção. Essa transparência não apenas aumenta a confiabilidade do modelo, mas também fornece aos pesquisadores e desenvolvedores insights melhores.

Em termos de verificação de desempenho, a equipe do laboratório Tongyi realizou experimentos comparativos entre o R1-Omni e o modelo original HumanOmni-0.5B. Os resultados mostram que o R1-Omni apresentou melhorias significativas nos conjuntos de dados DFEW e MAFW, com uma melhoria média superior a 35%. Além disso, em comparação com os modelos tradicionais de ajuste fino supervisionado (SFT), o R1-Omni também apresentou uma melhoria superior a 10% no aprendizado não supervisionado (UAR). Em conjuntos de testes de distribuição diferente (como RAVDESS), o R1-Omni demonstrou excelente capacidade de generalização, com WAR e UAR melhorando em mais de 13%. Esses resultados não apenas comprovam as vantagens do RLVR em melhorar a capacidade de raciocínio, mas também fornecem novas ideias e direções para pesquisas futuras em modelos multimodais.

A disponibilização em código aberto do R1-Omni facilitará o trabalho de mais pesquisadores e desenvolvedores, e esperamos que este modelo traga mais inovações e avanços em aplicações futuras.