Moon's Dark Side anuncia hoy el lanzamiento de su nuevo modelo de razonamiento visual, k1. Este modelo, basado en la técnica de aprendizaje por refuerzo, no solo admite la comprensión de imágenes de extremo a extremo, sino que también integra la tecnología de cadena de pensamiento, expandiendo sus capacidades más allá de las matemáticas a otros campos de la ciencia básica, incluyendo física y química. En las pruebas de capacidad de referencia, el modelo k1 superó a los modelos líderes mundiales, como el o1 de OpenAI, GPT-4o y Claude3.5 Sonnet.

La nueva generación de modelos genera pasos de razonamiento más detallados mediante incentivos, formando cadenas de pensamiento de alta calidad y mejorando significativamente la tasa de éxito en la resolución de tareas complejas. La fusión de la comprensión de imágenes y la capacidad de razonamiento del modelo k1 de Kimi proporciona a los usuarios una experiencia de interacción más fluida, pudiendo procesar directamente la información de las imágenes introducidas por el usuario y obtener respuestas sin necesidad de OCR externo o modelos visuales adicionales.

微信截图_20241216100218.png

El entrenamiento del modelo k1 se divide en dos etapas: primero, el preentrenamiento para obtener el modelo base, y luego un entrenamiento posterior mediante aprendizaje por refuerzo sobre esta base. El modelo base obtuvo una excelente puntuación de 903 puntos en OCRBench y destacó en los conjuntos de pruebas de referencia MathVista-testmini, MMMU-val y DocVQA. El entrenamiento posterior con aprendizaje por refuerzo optimizó la calidad de los datos y la eficiencia del aprendizaje, logrando un nuevo avance a escala.

Kimi también ha construido de forma autónoma un conjunto de pruebas estandarizado, Science Vista, que abarca problemas de matemáticas, física y química de diferentes niveles de dificultad, y lo pondrá a disposición de toda la industria. Aunque el modelo k1 muestra algunas limitaciones en las pruebas internas, como margen de mejora en la generalización fuera de la distribución y la tasa de éxito en problemas complejos, su rendimiento en escenarios con ruido visual es superior al de otros modelos, mostrando una capacidad de reconocimiento visual excepcional.

El modelo de razonamiento visual k1 del asistente inteligente Kimi no solo destaca en matemáticas, sino que también se extiende a la física y la química, mostrando una amplia capacidad en ciencias básicas. Además, el modelo k1 muestra capacidades generales, pudiendo explicar y razonar problemas no matemáticos, como el contenido y el contexto de los manuscritos científicos.

El asistente inteligente Kimi espera explorar un mundo más grande con los usuarios. El nuevo modelo k1 ya está disponible, y los usuarios pueden experimentar esta nueva función a través de la última versión de la aplicación móvil o la versión web del asistente inteligente Kimi.