El 24 de febrero, el equipo de 360智脑 y la Universidad de Pekín lanzaron oficialmente Tiny-R1-32B-Preview, un modelo de inferencia de tamaño mediano. Este modelo, con solo el 5% de los parámetros, se acerca al rendimiento completo de Deepseek-R1-671B, demostrando el enorme potencial de los modelos pequeños en el campo de la inferencia eficiente.

El modelo destaca en varios campos clave. En matemáticas, Tiny-R1-32B-Preview obtuvo una puntuación de 78.1 en la evaluación AIME2024, muy cercana a los 79.8 puntos del modelo R1 original y superando con creces los 70.0 puntos de Deepseek-R1-Distill-Llama-70B. En programación y ciencias, el modelo obtuvo 61.6 y 65.0 puntos en las pruebas LiveCodeBench y GPQA-Diamond respectivamente, superando ampliamente al mejor modelo de código abierto de 70B actual, Deepseek-R1-Distill-Llama-70B. Este logro no solo demuestra el excelente rendimiento de Tiny-R1-32B-Preview, sino que también reduce drásticamente los costos de inferencia con solo el 5% de los parámetros, logrando un salto en la eficiencia.

微信截图_20250226080042.png

La tecnología central detrás de este avance es la estrategia de "dividir y conquistar-fusionar". El equipo de investigación, basándose en DeepSeek-R1, generó una gran cantidad de datos de diferentes campos y entrenó modelos verticales para matemáticas, programación y ciencias. Posteriormente, utilizando la herramienta Mergekit del equipo Arcee, se realizó una fusión inteligente, superando el límite de rendimiento de un solo modelo y logrando una optimización equilibrada de múltiples tareas. Esta innovadora ruta tecnológica no solo mejora el rendimiento del modelo, sino que también proporciona nuevas ideas para el desarrollo futuro de modelos de inferencia.

El equipo de investigación conjunto de 360智脑 y la Universidad de Pekín afirma que el éxito de Tiny-R1-32B-Preview se debe al apoyo de la comunidad de código abierto. El modelo se beneficia de las técnicas de destilación DeepSeek-R1, entrenamiento incremental DeepSeek-R1-Distill-32B y fusión de modelos.

Para promover la accesibilidad tecnológica, el equipo de investigación se compromete a publicar el repositorio completo del modelo, incluyendo el informe técnico, el código de entrenamiento y parte del conjunto de datos. El repositorio del modelo ya está disponible en la plataforma Hugging Face, en la dirección: https://huggingface.co/qihoo360/TinyR1-32B-Preview.