Recientemente, un equipo de investigación de varias instituciones chinas ha creado con éxito el conjunto de datos "Infinity-MM", uno de los conjuntos de datos de IA multimodal de acceso público más grandes hasta la fecha, y ha entrenado un nuevo modelo pequeño de alto rendimiento: Aquila-VL-2B.
Este conjunto de datos contiene principalmente cuatro tipos de datos: 10 millones de descripciones de imágenes, 24,4 millones de datos de instrucciones visuales generales, 6 millones de datos de instrucciones de alta calidad seleccionados y 3 millones de datos generados por GPT-4 y otros modelos de IA.
Para la generación, el equipo de investigación utilizó modelos de IA de código abierto existentes. Primero, el modelo RAM++ analiza las imágenes y extrae información importante, luego genera preguntas y respuestas relacionadas. Además, el equipo construyó un sistema de clasificación especial para asegurar la calidad y diversidad de los datos generados.
Este método de generación de datos sintéticos utiliza un enfoque de procesamiento multinivel, combinando los modelos RAM++ y MiniCPM-V, a través del reconocimiento de imágenes, la clasificación de instrucciones y la generación de respuestas, proporcionando datos de entrenamiento precisos para el sistema de IA.
El modelo Aquila-VL-2B se basa en la arquitectura LLaVA-OneVision, utiliza Qwen-2.5 como modelo de lenguaje y emplea SigLIP para el procesamiento de imágenes. El entrenamiento del modelo se divide en cuatro etapas, aumentando gradualmente la complejidad. En la primera etapa, el modelo aprendió la asociación básica imagen-texto; las etapas posteriores incluyeron tareas de visión general, ejecución de instrucciones específicas y finalmente la integración de los datos sintéticos generados. La resolución de las imágenes también se incrementó gradualmente durante el entrenamiento.
En las pruebas, Aquila-VL-2B, con solo 2 mil millones de parámetros, obtuvo el mejor resultado en la prueba MMStar con una puntuación del 54,9%. Además, el modelo mostró un rendimiento excepcional en tareas matemáticas, obteniendo una puntuación del 59% en la prueba MathVista, superando con creces a sistemas similares.
En las pruebas de comprensión de imágenes generales, Aquila-VL-2B también mostró un rendimiento excelente, con una puntuación de 43% en HallusionBench y 75,2% en MMBench. Los investigadores indicaron que la inclusión de datos sintéticos generados mejoró significativamente el rendimiento del modelo; sin estos datos adicionales, el rendimiento promedio del modelo disminuiría un 2,4%.
El equipo de investigación decidió poner el conjunto de datos y el modelo a disposición de la comunidad de investigación. El proceso de entrenamiento utilizó principalmente GPU Nvidia A100 y chips nacionales chinos. El exitoso lanzamiento de Aquila-VL-2B marca la creciente competencia de los modelos de código abierto en la investigación de IA con respecto a los sistemas tradicionales de código cerrado, especialmente en el uso de datos de entrenamiento sintéticos, mostrando un buen potencial.
Enlace al artículo de Infinity-MM: https://arxiv.org/abs/2410.18558
Enlace al proyecto Aquila-VL-2B: https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen
Puntos clave:
🌐 El conjunto de datos "Infinity-MM" contiene 10 millones de descripciones de imágenes y 24,4 millones de datos de instrucciones visuales.
💡 El nuevo modelo Aquila-VL-2B muestra un rendimiento excelente en varias pruebas de referencia, batiendo récords en su categoría.
📈 El uso de datos sintéticos mejoró significativamente el rendimiento del modelo, y el equipo de investigación decidió poner el conjunto de datos y el modelo a disposición de la comunidad.