La société chinoise d'intelligence artificielle très attendue, Moonshot AI (月之暗面), a récemment annoncé la publication en open source de deux nouveaux modèles linguistiques visuels : Kimi-VL et Kimi-VL-Thinking. Ces deux modèles, grâce à leur architecture légère et à leurs capacités exceptionnelles de compréhension et de raisonnement multimodaux, ont surpassé de nombreux grands modèles, y compris GPT-4o, lors de plusieurs tests de référence clés, suscitant un vif intérêt dans le secteur.
Un poids plume, une puissance immense
Contrairement aux modèles dominants qui comptent souvent des centaines de milliards, voire des milliers de milliards de paramètres, Kimi-VL et Kimi-VL-Thinking utilisent une architecture MoE (Mixture-of-Experts, mélange d'experts), avec seulement environ 3 milliards de paramètres activés. Cela signifie qu'ils sont plus efficaces en termes d'exécution et de déploiement, et nécessitent moins de ressources de calcul. Cependant, il est surprenant de constater que, malgré cette architecture légère, ces deux modèles ont obtenu d'excellents résultats dans plusieurs tests de référence, démontrant ainsi leurs capacités de raisonnement exceptionnelles.
Intelligence multimodale améliorée : raisonnement mathématique et manipulation d'agents performants
Les modèles de la série Kimi-VL se distinguent par leurs performances en matière de raisonnement multimodal et de capacités d'agent. Lors du test de référence MathVision, qui évalue les capacités de raisonnement mathématique multimodal du modèle, Kimi-VL a obtenu un score de 36,8 %, un résultat comparable à celui de grands modèles dont la taille est dix fois supérieure.
Plus impressionnant encore, dans la tâche ScreenSpot-Pro, qui évalue les capacités de manipulation d'agent, Kimi-VL a obtenu un score de 34,5 %. Cela montre que le modèle possède un excellent potentiel pour comprendre les interfaces utilisateur complexes et effectuer les opérations correspondantes, jetant ainsi les bases du développement futur d'applications d'interaction homme-machine plus intelligentes.
Vision haute définition : prise en charge native du traitement d'images haute résolution
Grâce à l'architecture MoonViT, les modèles de la série Kimi-VL possèdent de puissantes capacités de reconnaissance et de compréhension d'images et de texte. Lors du test de référence OCRBench, ils ont obtenu un score de 867, démontrant ainsi leurs performances exceptionnelles en matière de traitement d'images haute résolution et de reconnaissance de texte complexe. Cette caractéristique est essentielle pour les applications qui traitent de grandes quantités d'informations sous forme d'images et de documents.
Mémoire étendue : maîtrise facile de la compréhension de contextes longs
La capacité de compréhension de contextes longs est un autre point fort des modèles de la série Kimi-VL. Ils prennent en charge des entrées de contexte allant jusqu'à 128 000 jetons. Cela signifie que les modèles peuvent traiter simultanément des documents, des vidéos et d'autres informations textuelles longues et complexes, et procéder à une analyse et une compréhension plus approfondies.
Lors du test de compréhension de documents longs MMLongBench-Doc, Kimi-VL a obtenu un score de 35,1 %, tandis que lors du test de compréhension de vidéos longues LongVideoBench, il a obtenu un score élevé de 64,5 %. Cela confère aux modèles de la série Kimi-VL un énorme potentiel d'application dans les domaines de la réponse aux questions sur des documents, de l'analyse vidéo, etc., qui nécessitent le traitement d'un grand nombre d'informations contextuelles.
Open source et partage, pour un avenir commun de l'intelligence multimodale
Moonshot AI souligne que la publication en open source de Kimi-VL et Kimi-VL-Thinking n'est qu'une petite étape vers une intelligence multimodale universelle. Ils souhaitent, grâce à l'open source, attirer davantage de développeurs communautaires à participer au développement d'applications de modèles, et explorer ensemble les possibilités infinies des modèles de la série Kimi-VL dans les domaines de la réponse aux questions sur des documents, de la manipulation d'interfaces, de la compréhension d'images et de texte, et de l'analyse vidéo.
Les développeurs peuvent actuellement accéder aux informations et au code des modèles de la série Kimi-VL de la manière suivante :
GitHub : https://github.com/MoonshotAI/Kimi-VL
https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct