¡Diseñado para el razonamiento visual complejo! Microsoft lanza Phi-3.5-vision, un modelo ligero y multimodal de código abierto

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Aug 21, 2024

358

Microsoft acaba de lanzar Phi-3.5-vision, un modelo de IA ligero, multimodal y de código abierto. Es el nuevo miembro de la familia de modelos Phi-3, diseñado específicamente para aplicaciones que necesitan procesar simultáneamente texto e imágenes. El modelo Phi-3.5-vision destaca en entornos con recursos de memoria o computacionales limitados, admite una longitud de contexto de 128K y es una opción ideal para el ámbito comercial y la investigación.

El modelo Phi-3.5-vision cuenta con una amplia gama de funciones, incluyendo comprensión de imágenes, reconocimiento óptico de caracteres (OCR), análisis de gráficos y tablas, resumen de múltiples imágenes o clips de vídeo, etc. En las pruebas de referencia relacionadas con el procesamiento de imágenes y vídeo, este modelo ha demostrado una mejora significativa en el rendimiento.

El modelo Phi-3.5-vision está formado por un sistema de 4.200 millones de parámetros, que incluye un codificador de imágenes, un conector, un proyector y el modelo de lenguaje Phi-3Mini. Se ha entrenado utilizando datos educativos de alta calidad, datos sintéticos y documentos públicos cuidadosamente seleccionados, garantizando así la calidad y la privacidad de los datos.

Phi-3.5-vision incluye tres modelos:

Phi-3.5Mini Instruct: Un modelo de IA ligero, ideal para entornos con recursos de memoria o computacionales limitados.

Phi-3.5MoE (Mixture of Experts): El primer modelo de "mezcla de expertos" de Microsoft, especializado en el manejo de tareas complejas.

Phi-3.5Vision Instruct: Un modelo multimodal que integra funciones de procesamiento de texto e imágenes.

Características principales

Las principales características del modelo Phi-3.5-vision incluyen la comprensión de imágenes, OCR, comprensión de gráficos y tablas, comparación de múltiples imágenes, resumen de múltiples imágenes o clips de vídeo, capacidad de inferencia eficiente, baja latencia y optimización de memoria.

Phi-3.5-vision ha obtenido excelentes resultados en varias pruebas de referencia, como MMMU, MMBench, TextVQA y pruebas de capacidad de procesamiento de vídeo, así como en la prueba de referencia BLINK, demostrando su potente rendimiento en tareas multimodales y visuales.

El lanzamiento del modelo Microsoft Phi-3.5-vision ofrece una nueva opción en el campo de la IA, especialmente en la ejecución en dispositivos finales y la inferencia visual compleja. Su naturaleza de código abierto y su diseño optimizado le permiten ofrecer un rendimiento excepcional incluso en entornos con recursos limitados, proporcionando un potente soporte para diversas aplicaciones impulsadas por IA.

Enlace de descarga del modelo: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

Lanzamiento de la API del modelo de comprensión de imágenes multimodales Kimi de Moonshot

El 15 de enero de 2025, la empresa tecnológica Moonshot de Beijing anunció el lanzamiento oficial de su nuevo modelo de comprensión de imágenes multimodales moonshot-v1-vision-preview. Este modelo mejora las capacidades multimodales de la serie de modelos moonshot-v1, ayudando a Kimi a comprender mejor el mundo. El modelo Vision posee una potente capacidad de reconocimiento de imágenes, capaz de identificar con precisión detalles complejos y diferencias sutiles en las imágenes, distinguiendo objetos similares pero no idénticos, ya sean alimentos o animales. Por ejemplo, frente a 16

¡Ahora sí entiendo imágenes! El asistente de IA de ByteDance, Doubao, lanza la función de comprensión de imágenes

ByteDance ha lanzado recientemente una nueva función para su aplicación Doubao: la comprensión de imágenes. Tanto la aplicación móvil como la versión para PC de Doubao han añadido un botón de foto y cámara, permitiendo a los usuarios subir imágenes para que el sistema las identifique. La función de comprensión de imágenes de Doubao no se limita al reconocimiento de texto; también analiza el contenido de la imagen, pudiendo incluso comprender y explicar chistes.

Microsoft lanza LLM2CLIP: una nueva tecnología de IA que permite a los modelos lingüísticos mejorar la comprensión de imágenes

En el campo de la tecnología actual, CLIP (Contrastive Language-Image Pre-training) es un importante modelo multimodal básico. Mediante el uso de una pérdida de aprendizaje por contraste en pares de imágenes y texto a gran escala, combina señales visuales y de texto en un espacio de características compartido. CLIP, como sistema de recuperación, admite varias tareas, como la clasificación, detección, segmentación y recuperación de imágenes y texto sin necesidad de entrenamiento previo. Además, como extractor de características, se utiliza en casi

xAI agrega capacidades de comprensión de imágenes a Grok; incluso entiende el humor de los memes

La empresa xAI, propiedad de Elon Musk, ha añadido recientemente capacidades de comprensión de imágenes a su modelo de IA Grok. Los usuarios de pago de la plataforma X ahora pueden cargar imágenes a su asistente de IA y hacer preguntas relacionadas. Esta actualización ha sido confirmada oficialmente en la plataforma X por empleados de xAI y un portavoz oficial de Grok. Musk mostró en la plataforma las nuevas capacidades de Grok, afirmando que no solo puede comprender el contenido de las imágenes, sino que también puede interpretar los elementos humorísticos que contienen. Sin embargo, también admitió que esta función se encuentra en una etapa temprana y que el equipo seguirá trabajando para mejorarla. Cabe destacar que desde agosto de este año, se ha dirigido a...