Em 24 de fevereiro, a equipe do 360 Zhi Nao e a Universidade de Pequim lançaram oficialmente o modelo de raciocínio de tamanho médio Tiny-R1-32B-Preview. Com apenas 5% da quantidade de parâmetros, este modelo conseguiu se aproximar do desempenho total do Deepseek-R1-671B, demonstrando o enorme potencial de modelos menores no campo da inferência eficiente.
O desempenho deste modelo foi particularmente notável em várias áreas-chave. Na área da matemática, o Tiny-R1-32B-Preview obteve uma pontuação de 78,1 pontos na avaliação AIME2024, muito próxima dos 79,8 pontos do modelo R1 original e superando em muito os 70,0 pontos do Deepseek-R1-Distill-Llama-70B. Nas áreas de programação e ciências, o modelo obteve pontuações de 61,6 e 65,0 pontos nos testes LiveCodeBench e GPQA-Diamond, respectivamente, superando amplamente o atual melhor modelo open source de 70B, o Deepseek-R1-Distill-Llama-70B. Este resultado não apenas demonstra o excelente desempenho do Tiny-R1-32B-Preview, mas também, com apenas 5% dos parâmetros, reduz significativamente o custo de inferência, alcançando um salto na eficiência.
A tecnologia central por trás dessa inovação é a estratégia de "divisão e conquista - fusão". A equipe de pesquisa, com base no DeepSeek-R1, gerou uma grande quantidade de dados de diferentes áreas e treinou modelos para três áreas verticais: matemática, programação e ciências. Em seguida, usando a ferramenta Mergekit da equipe Arcee, eles realizaram uma fusão inteligente, superando o limite de desempenho de um único modelo e alcançando uma otimização equilibrada para múltiplas tarefas. Este caminho tecnológico inovador não apenas melhorou o desempenho do modelo, mas também forneceu novas ideias para o desenvolvimento futuro de modelos de inferência.
A equipe de pesquisa conjunta do 360 Zhi Nao e da Universidade de Pequim afirma que o sucesso do Tiny-R1-32B-Preview se deve ao apoio da comunidade open source. O modelo se beneficiou da destilação do DeepSeek-R1, do treinamento incremental do DeepSeek-R1-Distill-32B e da fusão de modelos.
Para promover a acessibilidade tecnológica, a equipe de pesquisa se comprometeu a divulgar o repositório completo do modelo, incluindo o relatório técnico, o código de treinamento e parte dos conjuntos de dados. O repositório do modelo já está disponível na plataforma Hugging Face, no endereço: https://huggingface.co/qihoo360/TinyR1-32B-Preview.