El modelo de visión MiniGPT-v2, desarrollado por un equipo chino, ha superado las 20.000 estrellas en GitHub. Es capaz de realizar diversas tareas de visión, incluyendo la descripción de objetos, la localización visual y la generación de descripciones de imágenes. MiniGPT-v2 utiliza un entrenamiento multietapa y ofrece un rendimiento excepcional en la resolución de problemas visuales y en pruebas de referencia basadas en datos reales. Basado en la arquitectura ViT (Transformer Visual), logra una ejecución eficiente de las tareas mediante instrucciones multimodales sencillas.