Apple ha lanzado recientemente una importante actualización para su modelo de inteligencia artificial multimodal MM1, actualizándolo a la versión MM1.5. Esta actualización no es simplemente un cambio de número de versión, sino una mejora integral de sus capacidades, lo que permite al modelo mostrar un rendimiento mucho más potente en diversos campos.
La mejora principal de MM1.5 reside en su innovador método de procesamiento de datos. El modelo emplea un método de entrenamiento centrado en los datos, seleccionando y optimizando cuidadosamente el conjunto de datos de entrenamiento. Específicamente, MM1.5 utiliza una mezcla de datos OCR de alta resolución y descripciones de imágenes sintéticas, además de datos de ajuste fino de instrucciones visuales optimizados. La inclusión de estos datos ha mejorado significativamente el rendimiento del modelo en el reconocimiento de texto, la comprensión de imágenes y la ejecución de instrucciones visuales.
En cuanto al tamaño del modelo, MM1.5 abarca varias versiones con un rango de parámetros que va de 1.000 millones a 30.000 millones, incluyendo variantes densas y de mezcla de expertos (MoE). Es destacable que incluso los modelos de menor escala, con 1.000 millones y 3.000 millones de parámetros, alcanzan un nivel de rendimiento impresionante gracias al cuidadoso diseño de los datos y las estrategias de entrenamiento.
Las mejoras en las capacidades de MM1.5 se reflejan principalmente en los siguientes aspectos: comprensión de imágenes con texto denso, referencia y localización visual, razonamiento multiimagen, comprensión de vídeo y comprensión de interfaces de usuario móviles. Estas capacidades permiten que MM1.5 se aplique a una gama más amplia de escenarios, como identificar artistas e instrumentos en fotos de conciertos, comprender datos de gráficos y responder preguntas relacionadas, o localizar objetos específicos en escenas complejas.
Para evaluar el rendimiento de MM1.5, los investigadores lo compararon con otros modelos multimodales avanzados. Los resultados muestran que MM1.5-1B destaca entre los modelos de 1.000 millones de parámetros, superando claramente a otros modelos del mismo nivel. El rendimiento de MM1.5-3B supera al de MiniCPM-V2.0 y es comparable al de InternVL2 y Phi-3-Vision. Además, el estudio revela que, tanto en modelos densos como en modelos MoE, el rendimiento aumenta significativamente con el aumento de la escala.
El éxito de MM1.5 no solo refleja la capacidad de investigación y desarrollo de Apple en el campo de la inteligencia artificial, sino que también indica el camino para el futuro desarrollo de los modelos multimodales. La optimización de los métodos de procesamiento de datos y la arquitectura del modelo permite que incluso los modelos de menor escala alcancen un rendimiento potente, lo que es de gran importancia para la implementación de modelos de IA de alto rendimiento en dispositivos con recursos limitados.
Dirección del artículo: https://arxiv.org/pdf/2409.20566