Migician es un modelo de lenguaje multimodal de gran tamaño desarrollado por el Laboratorio de Procesamiento del Lenguaje Natural de la Universidad Tsinghua, centrado en tareas de localización de múltiples imágenes. Este modelo, mediante la introducción de un innovador marco de entrenamiento y el conjunto de datos a gran escala MGrounding-630k, mejora significativamente la capacidad de localización precisa en escenarios con múltiples imágenes. No solo supera a los modelos de lenguaje multimodal de gran tamaño existentes, sino que incluso supera en rendimiento a modelos de 70B aún más grandes. La principal ventaja de Migician radica en su capacidad para manejar tareas complejas de múltiples imágenes y proporcionar instrucciones de localización de forma libre, lo que le confiere una importante aplicación en el campo de la comprensión de múltiples imágenes. Actualmente, este modelo se encuentra disponible en código abierto en Hugging Face para su uso por parte de investigadores y desarrolladores.