Récemment, la société Beijing Moon's Dark Side Technology Co., Ltd. a annoncé une mise à niveau technologique majeure pour son assistant intelligent Kimi, lançant le nouveau modèle de réflexion multimodale k1.5. Ce modèle atteint un niveau de pointe dans le secteur en termes de raisonnement multimodale et de raisonnement général, marquant une nouvelle avancée révolutionnaire pour Kimi dans le domaine de l'intelligence artificielle.

Le modèle de réflexion multimodale k1.5 représente la troisième mise à niveau majeure du modèle d'apprentissage par renforcement de la série k de Kimi en seulement trois mois. Après le modèle mathématique k0-math lancé en novembre dernier et le modèle de réflexion visuelle k1 lancé en décembre, le modèle k1.5 a démontré des performances exceptionnelles lors des tests de référence. En mode short-CoT, les capacités mathématiques, de codage, multimodales visuelles et générales du k1.5 ont largement surpassé celles des modèles SOTA à réflexion courte GPT-4o et Claude3.5Sonnet, avec une avance allant jusqu'à 550 %. En mode long-CoT, les capacités mathématiques, de codage et de raisonnement multimodale du k1.5 ont atteint le niveau du modèle SOTA à réflexion longue OpenAI o1 version officielle, une première pour une entreprise autre qu'OpenAI au niveau mondial en termes de performances de raisonnement multimodale de la version officielle o1.

Cette mise à niveau est le fruit des efforts constants et de l'innovation de l'équipe technique de Kimi. L'équipe a publié pour la première fois un rapport technique détaillé sur l'entraînement du modèle : « Kimi k1.5 : Mise à l'échelle de l'apprentissage par renforcement à l'aide de grands modèles linguistiques », qui retrace le parcours d'exploration de l'entraînement du modèle dans le cadre du nouveau paradigme technologique.

微信截图_20250121082016.png

Le rapport indique que les innovations clés du modèle k1.5 incluent l'extension du contexte long, l'amélioration de l'efficacité de l'entraînement grâce à la technique de déploiement partiel, et l'observation que l'augmentation de la longueur du contexte améliore constamment les performances du modèle. De plus, des méthodes d'optimisation de stratégie améliorées et une conception de framework simple ont également contribué aux performances exceptionnelles du modèle. Il est à noter que le modèle k1.5 a été entraîné conjointement sur des données textuelles et visuelles, ce qui lui confère la capacité de raisonnement conjoint sur deux modalités, notamment en mathématiques, bien qu'il rencontre encore des défis dans le traitement de certains problèmes de géométrie reposant sur la compréhension de graphiques.

Pour améliorer davantage les capacités de raisonnement à chaîne courte, l'équipe a également proposé une méthode long2short efficace, utilisant la technologie Long-CoT pour améliorer le modèle Short-CoT, obtenant des résultats significatifs dans des tests tels qu'AIME, MATH500 et LiveCodeBench, surpassant largement les modèles de raisonnement à chaîne courte existants tels que GPT-4 et Claude Sonnet 3.5.

La version préliminaire du modèle de réflexion multimodale k1.5 sera progressivement déployée sur le site Web Kimi.com et la dernière version de l'application assistant intelligent Kimi. Les utilisateurs pourront découvrir ce nouveau modèle amélioré en trouvant le bouton de commutation du modèle. Le modèle k1.5 excelle dans le raisonnement approfondi et peut aider les utilisateurs à résoudre des problèmes complexes de codage, de mathématiques et de travail.

Moon's Dark Side Technology Co., Ltd. a déclaré qu'en 2025, elle poursuivra la mise à niveau accélérée des modèles d'apprentissage par renforcement de la série k selon la feuille de route établie, ajoutant plus de modalités, plus de domaines de compétences et une capacité générale plus forte, afin d'ouvrir davantage de possibilités aux utilisateurs.

Lien du rapport github : https://github.com/MoonshotAI/kimi-k1.5