Moon's Dark Side annonce aujourd'hui le lancement de son nouveau modèle de raisonnement visuel, k1. Ce modèle, basé sur l'apprentissage par renforcement, prend en charge la compréhension d'images de bout en bout et intègre la technique de la chaîne de pensée, étendant ainsi ses capacités au-delà des mathématiques vers d'autres domaines scientifiques fondamentaux, notamment la physique et la chimie. Lors de tests de référence, le modèle k1 a surpassé les modèles de référence mondiaux leaders, tels qu'OpenAI o1, GPT-4o et Claude3.5Sonnet.
Ce modèle de nouvelle génération génère des étapes de raisonnement plus détaillées, formant des chaînes de pensée de haute qualité, ce qui améliore considérablement le taux de réussite dans la résolution de tâches complexes. L'intégration de la compréhension d'images et des capacités de raisonnement dans le modèle k1 de Kimi offre aux utilisateurs une expérience interactive plus fluide. Il peut traiter directement les informations d'images fournies par l'utilisateur et fournir des réponses, sans avoir besoin d'OCR externe ou de modèles visuels supplémentaires.
L'entraînement du modèle k1 s'est déroulé en deux phases : un pré-entraînement pour obtenir un modèle de base, suivi d'un entraînement par renforcement. Le modèle de base a obtenu un excellent score de 903 points sur OCRBench et a brillé dans les ensembles de tests de référence MathVista-testmini, MMMU-val et DocVQA. L'entraînement par renforcement a optimisé la qualité des données et l'efficacité de l'apprentissage, réalisant une nouvelle percée en termes d'échelle.
Kimi a également créé son propre ensemble de tests standardisé, Science Vista, couvrant des problèmes de mathématiques, de physique et de chimie d'images de différents niveaux de difficulté, et le mettra à la disposition de toute l'industrie. Bien que le modèle k1 ait montré certaines limites lors des tests internes, notamment en termes de généralisation hors distribution et de taux de réussite sur des problèmes complexes (avec une marge de progression), ses performances en environnement bruité sur le plan visuel sont supérieures à celles des autres modèles, démontrant une capacité de reconnaissance visuelle exceptionnelle.
Le modèle de raisonnement visuel k1 de l'assistant intelligent Kimi excelle non seulement en mathématiques, mais s'étend également à la physique et à la chimie, démontrant des capacités scientifiques fondamentales étendues. De plus, le modèle k1 a démontré des capacités générales, capable d'expliquer et de raisonner sur des problèmes non mathématiques, tels que le contenu et le contexte des manuscrits scientifiques.
L'assistant intelligent Kimi espère explorer le monde avec vous. Le nouveau modèle k1 est déjà en ligne. Vous pouvez découvrir cette nouvelle fonctionnalité via l'application mobile ou la version web de l'assistant intelligent Kimi.