Kunlun Wanwei anuncia oficialmente hoy el lanzamiento de código abierto de su modelo de inferencia multimodal Skywork R1V. Este es el primer modelo de inferencia multimodal de código abierto del sector industrial en China, marcando un hito en el avance de la capacidad de IA china en el campo de la comprensión e inferencia multimodal. ¡A partir de hoy, los pesos del modelo y el informe técnico están completamente disponibles!

Imagine un modelo de IA que no solo pueda comprender imágenes, sino que también pueda realizar razonamientos lógicos como un humano para resolver problemas visuales complejos. Esto ya no es una escena de ciencia ficción, sino una capacidad que Skywork R1V está logrando. Este modelo es como un "Sherlock Holmes del mundo de la IA", experto en analizar minuciosamente, mediante un análisis lógico de múltiples pasos, la información visual masiva para extraer su significado profundo y proporcionar respuestas precisas. Ya sea descifrando acertijos de lógica visual, resolviendo problemas de matemáticas visuales de alto nivel, analizando fenómenos científicos en imágenes o incluso asistiendo en el diagnóstico de imágenes médicas, Skywork R1V demuestra una capacidad asombrosa.

image.png

Para medir el "coeficiente intelectual" de un modelo de IA, ¡los datos son los más convincentes! En términos de capacidad de razonamiento, Skywork R1V obtuvo puntuaciones excepcionalmente altas de 94.0 y 72.0 en las pruebas de referencia autorizadas MATH500 y AIME, respectivamente. Esto significa que Skywork R1V puede manejar fácilmente problemas matemáticos complejos y razonamientos lógicos rigurosos. Lo que es aún más sorprendente es que ha logrado integrar con éxito su poderosa capacidad de razonamiento en el campo visual, obteniendo puntuaciones altas de 69 y 67.5 en las pruebas de referencia de razonamiento visual MMMU y MathVista, respectivamente. Estos datos concretos demuestran directamente que Skywork R1V posee una capacidad de razonamiento lógico y análisis matemático de primer nivel.

image.png

Kunlun Wanwei se enorgullece de afirmar que el modelo Skywork R1V se basa en tres innovaciones tecnológicas clave:

En primer lugar, la transferencia eficiente multimodal de la capacidad de razonamiento de texto. El equipo de Kunlun Wanwei ha encontrado una forma ingeniosa de utilizar el proyector visual de Skywork-VL para transferir perfectamente la poderosa capacidad de razonamiento de texto a las tareas visuales sin necesidad de gastar una gran cantidad de dinero en volver a entrenar los modelos de lenguaje y los codificadores visuales. Es como una "gran transferencia de energía", sin afectar su capacidad de razonamiento de texto original.

En segundo lugar, el entrenamiento híbrido multimodal (Iterative SFT+GRPO). Este método de entrenamiento es como alimentar al modelo con una "comida nutritiva mixta". Mediante la ingeniosa combinación de ajuste supervisado iterativo y aprendizaje por refuerzo GRPO, se alinean de forma estratégica y por etapas las representaciones de texto-imagen, logrando una fusión eficiente de tareas multimodales, lo que hace que la capacidad multimodal del modelo aumente considerablemente. En las pruebas de referencia MMMU y MathVista, el rendimiento de Skywork R1V incluso puede compararse con modelos de código cerrado de mayor escala.

Por último, la destilación de cadena de pensamiento de longitud adaptable. El equipo de Kunlun Wanwei ha propuesto innovadoramente un mecanismo de "frenado inteligente", permitiendo que el modelo ajuste la longitud de la cadena de razonamiento de forma adaptativa según la complejidad del texto-imagen, evitando el "sobrepensamiento" y mejorando en gran medida la eficiencia del razonamiento sin comprometer la precisión. Junto con la estrategia de autodestilación multietapa, la calidad de generación de datos e inferencia del modelo mejora aún más, mostrando un rendimiento más flexible en tareas multimodales complejas.

image.png

El lanzamiento de código abierto de Skywork R1V proporcionará sin duda una poderosa herramienta de inferencia multimodal para investigadores y desarrolladores de IA en China e incluso en todo el mundo. Su aparición no solo acelerará la innovación y aplicación de la tecnología de IA multimodal, sino que también impulsará la integración profunda de la tecnología de IA en diversas industrias, abriéndonos un futuro más inteligente y mejor.