Microsoft vient de publier Phi-3.5-vision, un modèle d'IA léger, multi-modal et open source. Nouveau membre de la famille des modèles Phi-3, il est spécialement conçu pour les applications nécessitant le traitement simultané de données textuelles et visuelles. Phi-3.5-vision excelle dans les environnements aux ressources mémoire ou de calcul limitées, supportant une longueur de contexte de 128K, ce qui en fait un choix idéal pour les entreprises et la recherche.
Phi-3.5-vision offre une large gamme de fonctionnalités, incluant la compréhension d'images, la reconnaissance optique de caractères (OCR), l'analyse de graphiques et de tableaux, la synthèse de plusieurs images ou extraits vidéo, etc. Il a démontré une amélioration significative des performances lors de tests de référence liés au traitement d'images et de vidéos.
Le modèle Phi-3.5-vision est composé d'un système de 4,2 milliards de paramètres, incluant un encodeur d'images, un connecteur, un projecteur et le modèle linguistique Phi-3Mini. Il a été entraîné à l'aide de données éducatives de haute qualité, de données synthétiques et de documents publics rigoureusement sélectionnés, garantissant ainsi la qualité et la confidentialité des données.
Phi-3.5-vision comprend trois modèles :
Phi-3.5Mini Instruct : un modèle d'IA léger, adapté aux environnements aux ressources mémoire ou de calcul limitées.
Phi-3.5MoE (Mixture of Experts) : le premier modèle « mélange d'experts » de Microsoft, excellent pour gérer les tâches complexes.
Phi-3.5Vision Instruct : un modèle multi-modal intégrant des fonctionnalités de traitement du texte et des images.
Principales caractéristiques :
Les principales caractéristiques du modèle Phi-3.5-vision incluent la compréhension d'images, l'OCR, la compréhension de graphiques et de tableaux, la comparaison d'images multiples, la synthèse de plusieurs images ou extraits vidéo, des capacités d'inférence efficaces, ainsi qu'une faible latence et une optimisation de la mémoire.
Phi-3.5-vision a excellé dans plusieurs tests de référence, tels que MMMU, MMBench, TextVQA et les tests de capacité de traitement vidéo, ainsi que le test de référence BLINK, démontrant ainsi ses performances exceptionnelles dans les tâches multimodales et visuelles.
La publication du modèle Microsoft Phi-3.5-vision offre de nouvelles possibilités dans le domaine de l'IA, notamment pour l'exécution en périphérie et l'inférence visuelle complexe. Son caractère open source et sa conception optimisée lui permettent d'offrir des performances exceptionnelles même dans des environnements aux ressources limitées, fournissant ainsi un support puissant à diverses applications pilotées par l'IA.
Adresse de téléchargement du modèle : https://huggingface.co/microsoft/Phi-3.5-vision-instruct