Lors d'une récente conférence de presse, l'équipe IA d'Alibaba International a dévoilé son dernier modèle multimodal de grande envergure, Ovis. Cette innovation technologique en IA offre des opportunités considérables à divers secteurs d'activité. Ovis se distingue par ses capacités exceptionnelles de compréhension d'images et de traitement de données.

Les capacités multimodales d'Ovis sont extrêmement puissantes. Il peut traiter de multiples types de données, telles que du texte et des images, démontrant ainsi d'excellentes performances globales. Contrairement aux modèles de langage traditionnels, Ovis ne se contente pas de comprendre le texte, mais analyse également en profondeur les informations non textuelles, comme les images.

Par exemple, il suffit à un utilisateur de télécharger une photo d'un plat pour qu'Ovis identifie rapidement le plat et fournisse des instructions de cuisson détaillées, facilitant ainsi la préparation de délicieux repas.

Image

Ovis fournit des recettes grâce à la reconnaissance et au traitement d'images.

Selon les données de la plateforme d'évaluation multimodale OpenCompass, Ovis1.6-Gemma2-9B occupe la première place du classement général des modèles de moins de 30B de paramètres, surpassant des modèles performants tels que MiniCPM-V-2.6. Cette réussite témoigne de la compétitivité d'Ovis sur le marché.

Image

Résultats des tests d'Ovis sur OpenCompass

De plus, Ovis excelle dans des domaines tels que le raisonnement mathématique, la reconnaissance d'objets et la prise de décision complexe. Il peut par exemple résoudre des problèmes de mathématiques avec précision, identifier des espèces de fleurs et même traduire des textes manuscrits avec aisance. Parmi les cinq principaux atouts d'Ovis, son architecture innovante et sa capacité de traitement d'images haute résolution sont particulièrement remarquables, améliorant considérablement ses performances dans les tâches multimodales.

La stratégie open source d'Ovis est également louable. Sa licence Apache2.0 permet aux utilisateurs d'utiliser et d'améliorer librement ce modèle. Les modèles et le code de la série Ovis sont disponibles en open source sur GitHub, permettant aux développeurs d'y accéder facilement et de procéder à des développements secondaires.

Dans de nombreux domaines d'application, tels que la conduite autonome, le diagnostic médical et la compréhension de contenu vidéo, le modèle multimodal Ovis présente un potentiel énorme. L'équipe d'Alibaba International a révélé que les données des six derniers mois montrent une demande croissante des commerçants pour l'IA, avec un doublement du volume d'appels tous les deux mois en moyenne. Ovis contribuera sans aucun doute à améliorer l'efficacité opérationnelle de nombreux commerçants.

Points clés :

1️⃣ Ovis est un modèle multimodal de grande envergure capable de traiter plusieurs types de données, notamment du texte et des images, démontrant ainsi d'excellentes capacités globales.

2️⃣ Ovis1.6-Gemma2-9B a obtenu le premier rang au classement général des modèles de moins de 30 B de paramètres lors des évaluations OpenCompass, surpassant de nombreux concurrents performants.

3️⃣ Ovis est distribué sous licence Apache2.0 ; tous les modèles et le code sont disponibles publiquement sur GitHub, et les développeurs peuvent les utiliser et les améliorer librement.