A Kunlun Wanwei anunciou hoje oficialmente o lançamento de código aberto do seu modelo de raciocínio multimodal Skywork R1V! Este é não apenas o primeiro modelo de raciocínio multimodal de código aberto do setor na China, mas também marca um passo monumental para a força da IA chinesa na área de compreensão e raciocínio multimodais! A partir de hoje, os pesos do modelo e o relatório técnico estão totalmente disponíveis!

Imagine um modelo de IA que não apenas compreenda imagens, mas também realize raciocínio lógico como um humano, resolvendo problemas visuais complexos — isso não é mais uma cena de filme de ficção científica, mas sim uma capacidade que o Skywork R1V está realizando! Este modelo é como um "Sherlock Holmes do mundo da IA", especializado em desvendar mistérios, analisando logicamente em vários passos para extrair significados profundos de uma grande quantidade de informações visuais e, finalmente, fornecer respostas precisas. Seja decifrando enigmas de lógica visual, respondendo a problemas de matemática visual de alto nível, analisando fenômenos científicos em imagens ou até mesmo auxiliando no diagnóstico de imagens médicas, o Skywork R1V demonstra uma capacidade surpreendente.

image.png

Para medir o "QI" de um modelo de IA, os dados são os mais convincentes! Em termos de capacidade de raciocínio, o Skywork R1V obteve pontuações extremamente altas de 94,0 e 72,0 nos testes de referência autorizados MATH500 e AIME, respectivamente! Isso significa que o Skywork R1V pode lidar facilmente com problemas matemáticos complexos e raciocínio lógico rigoroso. O que é ainda mais impressionante é que ele conseguiu "integrar" sua poderosa capacidade de raciocínio ao campo visual, obtendo pontuações altas de 69 e 67,5 nos testes de referência de raciocínio visual MMMU e MathVista, respectivamente! Esses dados concretos demonstram diretamente que o Skywork R1V possui capacidades de raciocínio lógico e análise matemática de ponta!

image.png

A Kunlun Wanwei orgulhosamente afirma que o modelo Skywork R1V incorpora três inovações tecnológicas principais:

Primeiro, a transferência eficiente multimodal da capacidade de raciocínio de texto. A equipe da Kunlun Wanwei adotou uma abordagem inovadora, utilizando inteligentemente o projetor visual do Skywork-VL, sem a necessidade de investir grandes recursos em treinar novamente o modelo de linguagem e o codificador visual. Assim como uma "grande transferência de energia interna", a poderosa capacidade de raciocínio de texto foi perfeitamente transferida para tarefas visuais, sem afetar sua capacidade original de raciocínio de texto!

Em segundo lugar, o treinamento híbrido multimodal (Iterative SFT+GRPO). Este método de treinamento é como alimentar o modelo com uma "refeição nutritiva mista", combinando inteligentemente o ajuste supervisionado iterativo e o aprendizado por reforço GRPO, alinhando estrategicamente as representações visuais e de texto em etapas, resultando em uma fusão eficiente de tarefas multimodais, e a capacidade multimodal do modelo melhorou drasticamente! Nos testes de referência MMMU e MathVista, o desempenho do Skywork R1V pode até rivalizar com modelos proprietários de maior escala!

Finalmente, a destilação de cadeia de pensamento de comprimento adaptável. A equipe da Kunlun Wanwei propôs inovadoramente um mecanismo de "frenagem inteligente", permitindo que o modelo ajuste adaptivamente o comprimento da cadeia de raciocínio de acordo com a complexidade visual e textual, evitando o "pensamento excessivo", melhorando significativamente a eficiência do raciocínio enquanto garante a precisão do raciocínio! Combinado com a estratégia de autodestilação em várias etapas, a qualidade da geração de dados e do raciocínio do modelo melhorou ainda mais, mostrando-se mais adaptável em tarefas multimodais complexas!

image.png

O lançamento de código aberto do Skywork R1V certamente fornecerá uma poderosa "ferramenta" de raciocínio multimodal para pesquisadores e desenvolvedores de IA na China e em todo o mundo. Sua aparição não apenas acelerará a inovação e aplicação da tecnologia de IA multimodal, mas também impulsionará a integração profunda da tecnologia de IA em vários setores, abrindo um futuro mais inteligente e melhor para nós!