Modèle d'inférence de chaîne de pensée visuelle Skywork R1V open source de Kunlun Wanwei

Kunlun Wanwei vient de lancer officiellement Skywork R1V (ou « R1V »), le premier modèle d'inférence multimodale industriel au monde. Ce modèle, doté de 3,8 milliards de paramètres, atteint des performances proches de celles du célèbre modèle propriétaire DeepSeek-R1, et même le surpasse dans plusieurs tests de référence, surpassant ainsi un certain nombre de technologies de pointe (SOTA). Kunlun Wanwei a choisi de rendre R1V open source afin de promouvoir le partage des technologies et le progrès, et d'injecter une nouvelle vitalité dans la communauté mondiale de l'open source IA.

R1V est réputé pour ses capacités exceptionnelles d'inférence multimodale, combinant de manière transparente les informations textuelles et visuelles pour démontrer une intelligence puissante. Plus précisément, R1V se positionne directement face à des modèles propriétaires tels que Claude3.5Sonnet et GPT-4o dans les tâches de question-réponse visuelle, tout en conservant des capacités de raisonnement textuel de premier ordre. Dans les tests de référence MMMU, R1V a obtenu un score élevé de 69 points, établissant un nouveau record pour les modèles de taille comparable. Il a également obtenu un excellent score de 67,5 points au test MathVista, démontrant ainsi ses capacités exceptionnelles en matière de raisonnement mathématique complexe et d'analyse logique.

Le succès de R1V est dû à plusieurs innovations technologiques de l'équipe de recherche de Kunlun Wanwei. Cela inclut l'apprentissage par transfert intermodal, une méthode qui transfère efficacement les capacités de raisonnement textuel des grands modèles vers la modalité visuelle, réduisant ainsi considérablement les besoins en données d'inférence multimodale. De plus, la stratégie d'entraînement hybride utilisée par R1V, combinant l'ajustement fin supervisé itératif et l'apprentissage par renforcement, ajuste dynamiquement la longueur de la chaîne de pensée, améliorant ainsi l'efficacité de l'inférence. Il est également important de noter que R1V introduit un cadre de distillation de chaîne de pensée à longueur adaptative pour éviter la « sur-réflexion » pendant le processus d'inférence, améliorant ainsi considérablement l'efficacité et la qualité de l'inférence.

Avec le lancement de R1V, Kunlun Wanwei devient non seulement la première entreprise au monde à proposer un modèle d'inférence multimodale open source, mais franchit également une étape importante vers la réalisation de son rêve d'AGI (Intelligence Artificielle Générale). Les poids du modèle, le code d'inférence et le rapport technique sont désormais disponibles publiquement, et toute personne peut accéder aux ressources correspondantes via GitHub et Hugging Face.

Téléchargement des poids du modèle

Hugging Face :

https://huggingface.co/Skywork/Skywork-R1V-38B

GitHub :

https://github.com/SkyworkAI/Skywork-R1V

Rapport technique détaillé

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

Points clés :
🌟 Lancement officiel de Skywork R1V, le premier modèle d'inférence multimodale open source industriel au monde, avec 3,8 milliards de paramètres.
🚀 R1V a démontré des performances exceptionnelles dans plusieurs tests de référence, obtenant notamment des scores élevés de 69 et 67,5 points respectivement aux tests MMMU et MathVista.
📚 L'initiative open source de Kunlun Wanwei vise à promouvoir le partage des technologies, à dynamiser la communauté mondiale de l'open source IA et à contribuer à la réalisation du rêve de l'AGI.

Actualités IA

Modèle d'inférence de chaîne de pensée visuelle Skywork R1V open source de Kunlun Wanwei

AIbase基地