Migician est un grand modèle linguistique multimodale développé par le laboratoire de traitement du langage naturel de l'Université Tsinghua, spécialisé dans les tâches de localisation multi-images. Ce modèle, grâce à l'introduction d'un cadre d'entraînement innovant et d'un ensemble de données à grande échelle, MGrounding-630k, améliore considérablement la capacité de localisation précise dans les scénarios multi-images. Il surpasse non seulement les grands modèles linguistiques multimodaux existants, mais dépasse même en performance les modèles plus importants de 70 B. Les principaux avantages de Migician résident dans sa capacité à traiter des tâches multi-images complexes et à fournir des instructions de localisation de forme libre, ce qui lui confère un potentiel d'application important dans le domaine de la compréhension multi-images. Ce modèle est actuellement open source sur Hugging Face, à la disposition des chercheurs et des développeurs.