El modelo de inteligencia artificial multimodal para dispositivos finales "MiniCPM-V2.6", con solo 8B de parámetros, ha logrado resultados SOTA (State of the Art, es decir, el mejor nivel actual) en tres áreas: comprensión de imágenes individuales, múltiples imágenes y vídeo, todas ellas con menos de 20B de parámetros. Esto supone una mejora significativa en la capacidad multimodal de la IA en dispositivos finales, y es totalmente comparable a GPT-4V.
A continuación, se resumen sus características:
Características del modelo: MiniCPM-V2.6 ha superado ampliamente las capacidades centrales de comprensión de imágenes individuales, múltiples imágenes y vídeo en dispositivos finales. Por primera vez, integra la comprensión de vídeo en tiempo real y la comprensión conjunta de múltiples imágenes en dispositivos finales, acercándose más a escenarios del mundo real complejos.
Eficiencia y rendimiento: Este modelo, a pesar de su pequeño tamaño, ofrece una alta densidad de píxeles (densidad de tokens), el doble que GPT-4 en la codificación de tokens individuales, logrando una eficiencia de ejecución excepcional en dispositivos finales.
Amigable para dispositivos finales: Tras la cuantificación, el modelo solo necesita 6 GB de memoria, con una velocidad de inferencia de 18 tokens por segundo, un 33% más rápido que la generación anterior, y admite múltiples idiomas y frameworks de inferencia.
Expansión de funciones: MiniCPM-V2.6, gracias a su capacidad OCR, traslada la capacidad de análisis de imágenes de alta resolución de escenas individuales a escenas con múltiples imágenes y vídeo, reduciendo la cantidad de tokens visuales y ahorrando recursos.
Capacidad de inferencia: Demuestra una excelente capacidad en la comprensión de múltiples imágenes y tareas de inferencia complejas, como la explicación paso a paso del ajuste del sillín de una bicicleta y la identificación del punto irónico de un meme.
ICL de múltiples imágenes: El modelo admite el aprendizaje de pocos ejemplos con contexto, adaptándose rápidamente a tareas de dominios específicos y mejorando la estabilidad de la salida.
Arquitectura visual de alta definición: Gracias a una arquitectura visual unificada, la capacidad OCR del modelo se mantiene, permitiendo una expansión fluida desde imágenes individuales a múltiples imágenes y vídeo.
Tasa de alucinaciones extremadamente baja: MiniCPM-V2.6 presenta un rendimiento excepcional en las pruebas de alucinaciones, demostrando su fiabilidad.
El lanzamiento del modelo MiniCPM-V2.6 tiene una importancia significativa para el desarrollo de la IA en dispositivos finales, ya que no solo mejora la capacidad de procesamiento multimodal, sino que también demuestra la posibilidad de lograr una IA de alto rendimiento en dispositivos finales con recursos limitados.
Dirección del código abierto de MiniCPM-V2.6:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-V-2_6
Tutoriales de implementación de llama.cpp, ollama y vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Dirección del código abierto de la serie MiniCPM:
https://github.com/OpenBMB/MiniCPM