Recientemente, Beijing Moon's Dark Side Technology Co., Ltd. anunció una importante actualización tecnológica para su asistente inteligente Kimi, lanzando el nuevo modelo de pensamiento multimodal k1.5. Este modelo ha alcanzado un nivel líder en la industria en razonamiento multimodal y razonamiento general, marcando un avance innovador para Kimi en el campo de la inteligencia artificial.
El modelo de pensamiento multimodal k1.5 representa la tercera actualización importante del modelo de aprendizaje reforzado de la serie k de Kimi en solo tres meses. Tras el lanzamiento del modelo matemático k0-math en noviembre del año pasado y el modelo de pensamiento visual k1 en diciembre, el modelo k1.5 ha demostrado un rendimiento excepcional en las pruebas de referencia. En el modo short-CoT, las capacidades matemáticas, de código, multimodales visuales y generales del k1.5 superaron significativamente a los modelos SOTA de pensamiento corto GPT-4o y Claude3.5Sonnet a nivel mundial, con una ventaja de hasta un 550%. En el modo long-CoT, las capacidades matemáticas, de código y de razonamiento multimodal del k1.5 alcanzaron el nivel del modelo SOTA de pensamiento largo OpenAI o1 versión oficial, siendo esta la primera vez que una empresa que no es OpenAI logra el rendimiento de razonamiento multimodal de la versión oficial o1 a nivel mundial.
Detrás de esta actualización se encuentra el incansable esfuerzo e innovación del equipo técnico de Kimi. El equipo publicó por primera vez un informe técnico detallado sobre el entrenamiento del modelo, titulado "Kimi k1.5: Escalando el aprendizaje reforzado con modelos de lenguaje grandes", que documenta el camino de exploración del entrenamiento del modelo bajo el nuevo paradigma tecnológico.
El informe señala que las innovaciones clave del modelo k1.5 incluyen la extensión del contexto largo, que mejora la eficiencia del entrenamiento mediante la técnica de expansión parcial, observándose que el aumento de la longitud del contexto mejora continuamente el rendimiento del modelo. Además, los métodos de optimización de estrategias mejorados y el diseño de marco simplificado también contribuyen al potente rendimiento del modelo. Cabe destacar que el modelo k1.5 se entrenó conjuntamente en datos de texto e imágenes, lo que le permite realizar inferencias conjuntas en ambos modos, especialmente destacando en capacidades matemáticas, aunque aún presenta desafíos en el tratamiento de problemas de geometría que dependen de la comprensión de gráficos.
Para mejorar aún más la capacidad de razonamiento de cadena corta, el equipo también propuso un método long2short eficaz, utilizando la tecnología Long-CoT para mejorar el modelo Short-CoT, obteniendo resultados notables en pruebas como AIME, MATH500 y LiveCodeBench, superando significativamente a los modelos de razonamiento de cadena corta existentes, como GPT-4 y Claude Sonnet3.5.
La versión preliminar del modelo de pensamiento multimodal k1.5 se lanzará gradualmente en el sitio web Kimi.com y en la última versión de la aplicación del asistente inteligente Kimi. Los usuarios podrán experimentar este nuevo modelo actualizado si encuentran el botón de cambio de modelo durante su uso. El modelo k1.5 destaca en el razonamiento profundo y puede ayudar a los usuarios a resolver problemas complejos de código, matemáticas y trabajo.
Moon's Dark Side Technology Co., Ltd. declaró que en 2025 continuará acelerando la actualización de los modelos de aprendizaje reforzado de la serie k siguiendo su hoja de ruta establecida, aportando más modalidades, capacidades en más áreas y una capacidad general más sólida, para desbloquear más posibilidades para los usuarios.
Enlace al informe de github:https://github.com/MoonshotAI/kimi-k1.5