Le modèle linguistique multimodal Yi-VL est le nouveau membre de la famille de modèles Yi de Zero One Wanwu. Il possède des capacités exceptionnelles en matière de compréhension d'images et de texte et de génération de dialogues.
Le modèle Yi-VL a obtenu des résultats de pointe sur les ensembles de données anglais MMMU et chinois CMMMU, démontrant ainsi sa puissance dans des tâches interdisciplinaires complexes.
Yi-VL-34B a surpassé les autres grands modèles multimodaux avec un taux de précision de 41,6 % sur le nouveau benchmark multimodal MMMU, démontrant ainsi une forte capacité de compréhension et d'application des connaissances interdisciplinaires.
Le modèle Yi-VL est basé sur l'architecture open source LLaVA, et comprend un Vision Transformer (ViT), un module de projection et les grands modèles linguistiques Yi-34B-Chat et Yi-6B-Chat. ViT est utilisé pour l'encodage d'images, le module de projection permet l'alignement des caractéristiques d'image et de texte, et les grands modèles linguistiques fournissent une puissante capacité de compréhension et de génération du langage.