Phi-3 Vision est un modèle multimodale léger et de pointe, open source, construit sur un ensemble de données incluant des données synthétiques et des sites web publics filtrés. Il se concentre sur des données d'inférence denses de très haute qualité pour le texte et la vision. Ce modèle appartient à la famille des modèles Phi-3. La version multimodale prend en charge une longueur de contexte de 128 000 jetons, et a subi un processus d'amélioration rigoureux combinant l'ajustement fin supervisé et l'optimisation directe des préférences afin d'assurer une exécution précise des instructions et de solides mesures de sécurité.