Microsoft acaba de lanzar Phi-3.5-vision, un modelo de IA ligero, multimodal y de código abierto. Es el nuevo miembro de la familia de modelos Phi-3, diseñado específicamente para aplicaciones que necesitan procesar simultáneamente texto e imágenes. El modelo Phi-3.5-vision destaca en entornos con recursos de memoria o computacionales limitados, admite una longitud de contexto de 128K y es una opción ideal para el ámbito comercial y la investigación.
El modelo Phi-3.5-vision cuenta con una amplia gama de funciones, incluyendo comprensión de imágenes, reconocimiento óptico de caracteres (OCR), análisis de gráficos y tablas, resumen de múltiples imágenes o clips de vídeo, etc. En las pruebas de referencia relacionadas con el procesamiento de imágenes y vídeo, este modelo ha demostrado una mejora significativa en el rendimiento.
El modelo Phi-3.5-vision está formado por un sistema de 4.200 millones de parámetros, que incluye un codificador de imágenes, un conector, un proyector y el modelo de lenguaje Phi-3Mini. Se ha entrenado utilizando datos educativos de alta calidad, datos sintéticos y documentos públicos cuidadosamente seleccionados, garantizando así la calidad y la privacidad de los datos.
Phi-3.5-vision incluye tres modelos:
Phi-3.5Mini Instruct: Un modelo de IA ligero, ideal para entornos con recursos de memoria o computacionales limitados.
Phi-3.5MoE (Mixture of Experts): El primer modelo de "mezcla de expertos" de Microsoft, especializado en el manejo de tareas complejas.
Phi-3.5Vision Instruct: Un modelo multimodal que integra funciones de procesamiento de texto e imágenes.
Características principales
Las principales características del modelo Phi-3.5-vision incluyen la comprensión de imágenes, OCR, comprensión de gráficos y tablas, comparación de múltiples imágenes, resumen de múltiples imágenes o clips de vídeo, capacidad de inferencia eficiente, baja latencia y optimización de memoria.
Phi-3.5-vision ha obtenido excelentes resultados en varias pruebas de referencia, como MMMU, MMBench, TextVQA y pruebas de capacidad de procesamiento de vídeo, así como en la prueba de referencia BLINK, demostrando su potente rendimiento en tareas multimodales y visuales.
El lanzamiento del modelo Microsoft Phi-3.5-vision ofrece una nueva opción en el campo de la IA, especialmente en la ejecución en dispositivos finales y la inferencia visual compleja. Su naturaleza de código abierto y su diseño optimizado le permiten ofrecer un rendimiento excepcional incluso en entornos con recursos limitados, proporcionando un potente soporte para diversas aplicaciones impulsadas por IA.
Enlace de descarga del modelo: https://huggingface.co/microsoft/Phi-3.5-vision-instruct