Kunlun Wanwei annonce aujourd'hui officiellement la publication en open source de son modèle d'inférence multimodale Skywork R1V ! Il s'agit non seulement du premier modèle d'inférence multimodale open source du secteur industriel chinois, mais aussi d'une étape décisive pour la puissance de l'IA chinoise dans les domaines de la compréhension et de l'inférence multimodales ! À compter d'aujourd'hui, les poids du modèle et le rapport technique sont entièrement accessibles !

Imaginez un modèle d'IA capable non seulement de comprendre les images, mais aussi de raisonner logiquement comme un humain et de résoudre des problèmes visuels complexes — ce n'est plus une scène de film de science-fiction, mais une capacité que Skywork R1V est en train de réaliser ! Ce modèle est comme un « Sherlock Holmes de l'IA », il excelle à décortiquer les informations, à mener des analyses logiques en plusieurs étapes, à extraire des significations profondes d'une quantité massive d'informations visuelles, et à fournir des réponses précises. Qu'il s'agisse de résoudre des énigmes logiques visuelles, de répondre à des problèmes de mathématiques visuelles difficiles, d'analyser des phénomènes scientifiques sur des images, ou même d'aider au diagnostic médical par imagerie, Skywork R1V fait preuve d'une capacité étonnante.

image.png

Pour mesurer le « QI » d'un modèle d'IA, les données sont les plus convaincantes ! En termes de capacité de raisonnement, Skywork R1V a obtenu des scores exceptionnellement élevés de 94,0 et 72,0 aux tests de référence MATH500 et AIME ! Cela signifie que Skywork R1V peut facilement résoudre des problèmes mathématiques complexes et effectuer des raisonnements logiques rigoureux. Plus impressionnant encore, il a réussi à intégrer ses puissantes capacités de raisonnement au domaine visuel, obtenant des scores élevés de 69 et 67,5 aux tests de référence de raisonnement visuel MMMU et MathVista ! Ces données concrètes démontrent directement que Skywork R1V possède des capacités de pointe en matière de raisonnement logique et d'analyse mathématique !

image.png

Kunlun Wanwei déclare fièrement que le modèle Skywork R1V repose sur trois innovations technologiques clés :

Premièrement, le transfert efficace multimodale des capacités de raisonnement textuel. L'équipe de Kunlun Wanwei a trouvé une solution ingénieuse en utilisant le projecteur visuel de Skywork-VL. Sans avoir à dépenser des sommes considérables pour re-entraîner les modèles linguistiques et les encodeurs visuels, ils ont réussi à transférer, comme par magie, les puissantes capacités de raisonnement textuel aux tâches visuelles, sans pour autant affecter leurs capacités de raisonnement textuel !

Deuxièmement, l'entraînement hybride multimodale (Iterative SFT+GRPO). Ce type d'entraînement est comme donner au modèle un « régime alimentaire équilibré ». Grâce à la combinaison astucieuse de l'ajustement supervisé itératif et de l'apprentissage par renforcement GRPO, les représentations visuel-textuelles sont alignées de manière progressive et stratégique, ce qui permet une fusion efficace des tâches intermodales et une amélioration spectaculaire des capacités intermodales du modèle ! Dans les tests de référence MMMU et MathVista, les performances de Skywork R1V sont même comparables à celles de modèles propriétaires de plus grande envergure !

Enfin, la distillation de la chaîne de pensée à longueur adaptative. L'équipe de Kunlun Wanwei a proposé un mécanisme de « freinage intelligent » innovant. Le modèle peut adapter la longueur de la chaîne de raisonnement en fonction de la complexité visuel-textuelle, évitant ainsi la « sur-réflexion », ce qui permet d'améliorer considérablement l'efficacité du raisonnement tout en garantissant la précision. Couplé à une stratégie d'auto-distillation en plusieurs étapes, la qualité de génération de données et d'inférence du modèle est encore améliorée, ce qui lui permet de gérer plus facilement les tâches multimodales complexes !

image.png

La publication en open source de Skywork R1V offrira sans aucun doute un puissant outil d'inférence multimodale aux chercheurs et développeurs d'IA en Chine et dans le monde entier. Son apparition accélérera non seulement l'innovation et les applications des technologies d'IA multimodales, mais elle favorisera également l'intégration approfondie des technologies d'IA dans divers secteurs, ouvrant ainsi la voie à un avenir plus intelligent et meilleur !