SenseTime a officiellement lancé son modèle multimodal fusionné « RiRiXin ». Ce modèle a réalisé des améliorations significatives en termes de traitement d'informations multimodales et de capacités de raisonnement approfondi, obtenant la première place dans deux classements d'évaluation de référence.

Selon le rapport d'évaluation des grands modèles linguistiques chinois 2024 de SuperCLUE, une agence d'évaluation nationale réputée, le modèle fusionné « RiRiXin » de SenseTime a obtenu un score élevé de 68,3, se classant ainsi parmi les meilleurs en Chine avec DeepSeek V3. De plus, dans l'évaluation multimodale d'OpenCompass, ce modèle s'est également classé premier, avec un score dépassant largement celui de GPT-4o.

image.png

Le modèle fusionné « RiRiXin » de SenseTime marque une percée substantielle dans le domaine de l'entraînement multimodal natif. Cela signifie que le modèle peut fusionner des informations de divers types, tels que du texte, des images et des vidéos, ouvrant ainsi de nouvelles perspectives pour le secteur. Dans l'évaluation de SuperCLUE, le modèle a excellé en lettres et en sciences, obtenant la première place mondiale en lettres avec un score de 81,8 et une médaille d'or en sciences, avec un score de 78,2 en calcul, se classant ainsi premier en Chine.

image.png

Le modèle fusionné « RiRiXin » se caractérise par sa capacité à traiter simultanément des informations complexes et variées. Il peut non seulement identifier des textes ambigus, mais aussi analyser rapidement des tableaux de données et fournir un support de raisonnement approfondi. Dans les applications concrètes, ce modèle a démontré ses avantages uniques, notamment dans les domaines de la conduite autonome, de l'interaction vidéo, de l'éducation et des bureaux, de la finance et de la fabrication industrielle.

image.png

Lors du développement du produit, SenseTime a utilisé un grand nombre de données combinant texte et images. Grâce à des techniques de synthèse avancées, un pont d'interaction a été établi entre les modalités, améliorant ainsi la capacité du modèle à comprendre les informations multimodales. De plus, SenseTime a créé un large éventail de tâches intermodales, fournissant ainsi une base solide pour l'entraînement du modèle fusionné « RiRiXin ». Grâce à cette méthode d'entraînement innovante, le modèle multimodal fusionné de SenseTime peut répondre efficacement aux besoins des utilisateurs dans divers contextes d'application, réalisant ainsi un cycle vertueux entre la mise en œuvre des applications et l'itération des modèles de base.

Points clés :

🌟 SenseTime lance le modèle multimodal fusionné « RiRiXin », aux performances exceptionnelles.

📊 Le modèle excelle en lettres et en sciences, obtenant la première place mondiale en lettres et la première place en Chine en sciences.

🚀 Le modèle est applicable à de nombreux domaines, tels que la conduite autonome, la finance et l'éducation en ligne, démontrant ainsi ses puissantes capacités de traitement multimodal.