Kunlun Wanwei acaba de lanzar Skywork R1V (abreviado como "R1V"), el primer modelo de inferencia multimodal del sector industrial a nivel mundial. Este modelo, con 3.800 millones de parámetros, se acerca al rendimiento del conocido modelo de código cerrado DeepSeek-R1, e incluso lo supera en varias pruebas de referencia, superando una serie de tecnologías de vanguardia (SOTA).
R1V destaca por su excepcional capacidad de inferencia multimodal, integrando a la perfección información textual y visual para mostrar una potente inteligencia. Específicamente, en tareas de preguntas y respuestas visuales, R1V se compara directamente con modelos de código cerrado como Claude3.5Sonnet y GPT-4o, manteniendo una capacidad de inferencia textual de primer nivel. En la prueba de referencia MMMU, R1V obtuvo una alta puntuación de 69 puntos, estableciendo un nuevo récord para modelos del mismo tamaño. En la prueba MathVista, también obtuvo una excelente puntuación de 67.5 puntos, demostrando su potente capacidad en el razonamiento matemático complejo y el análisis lógico.
El éxito de R1V se debe a varias innovaciones tecnológicas del equipo de investigación de Kunlun Wanwei. Esto incluye el aprendizaje por transferencia intermodal, un método que transfiere eficazmente la capacidad de razonamiento textual de los grandes modelos al modo visual, reduciendo considerablemente la necesidad de datos de inferencia multimodal. Además, la estrategia de entrenamiento mixto empleada por R1V, que combina el ajuste fino supervisado iterativo y el aprendizaje por refuerzo, ajusta dinámicamente la longitud de la cadena de pensamiento, mejorando así la eficiencia de la inferencia. Cabe destacar que R1V también introduce un marco de destilación de cadena de pensamiento de longitud adaptable para evitar el "sobrepensamiento" en el proceso de inferencia, mejorando significativamente la eficiencia y la calidad de la inferencia.
Con el lanzamiento de R1V, Kunlun Wanwei no solo se convierte en la primera empresa del mundo en lanzar un modelo de inferencia multimodal de código abierto, sino que también da un paso importante hacia la realización del sueño de la IAG (Inteligencia Artificial General). Los pesos del modelo, el código de inferencia y el informe técnico ya están disponibles públicamente; cualquier persona puede acceder a los recursos relevantes a través de GitHub y Hugging Face.
Descarga de pesos del modelo
Hugging Face:
https://huggingface.co/Skywork/Skywork-R1V-38B
GitHub:
https://github.com/SkyworkAI/Skywork-R1V
Informe técnico detallado
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
Puntos clave:
🌟 Se lanza oficialmente Skywork R1V, el primer modelo de inferencia multimodal de código abierto del sector industrial a nivel mundial, con 3.800 millones de parámetros.
🚀 R1V muestra un rendimiento excepcional en varias pruebas de referencia, obteniendo puntuaciones de 69 y 67.5 en MMMU y MathVista, respectivamente.
📚 La iniciativa de código abierto de Kunlun Wanwei tiene como objetivo promover el intercambio de tecnología e impulsar la comunidad de código abierto de IA a nivel mundial, contribuyendo a la realización del sueño de la IAG.