Recientemente, Google anunció el lanzamiento de un nuevo modelo de lenguaje visual (Vision-Language Model, VLM) llamado PaliGemma2Mix. Este modelo combina el procesamiento de imágenes y el procesamiento del lenguaje natural, pudiendo comprender información visual y entradas de texto simultáneamente, y generar salidas según sea necesario. Esto representa un gran avance en el procesamiento multitarea de la inteligencia artificial.

PaliGemma2Mix tiene capacidades muy potentes. Integra varias tareas de visión-lenguaje, incluyendo descripción de imágenes, reconocimiento óptico de caracteres (OCR), preguntas y respuestas sobre imágenes, detección de objetos y segmentación de imágenes, siendo aplicable a diversas situaciones. Los desarrolladores pueden usar este modelo directamente a través de puntos de control preentrenados (checkpoints) o ajustarlo según sus necesidades.

image.png

Este modelo se basa en el PaliGemma2 anterior, optimizado específicamente para tareas mixtas, con el objetivo de facilitar a los desarrolladores la exploración de sus capacidades. PaliGemma2Mix ofrece tres tamaños de parámetros para elegir: 3B (3 mil millones de parámetros), 10B (10 mil millones de parámetros) y 28B (28 mil millones de parámetros), y admite resoluciones de 224px y 448px, adaptándose a diferentes recursos computacionales y necesidades de las tareas.

Los principales puntos destacados de PaliGemma2Mix incluyen:

1. Descripción de imágenes: El modelo puede generar descripciones de imágenes cortas y largas, por ejemplo, reconocer una imagen de una vaca en la playa y proporcionar una descripción detallada.

2. Reconocimiento óptico de caracteres (OCR): El modelo puede extraer texto de imágenes, reconocer señales, etiquetas y contenido de documentos, facilitando la extracción de información.

3. Preguntas y respuestas sobre imágenes y detección de objetos: Los usuarios pueden cargar una imagen y hacer preguntas; el modelo analizará la imagen y dará respuestas. Además, puede identificar con precisión objetos específicos en la imagen, como animales o vehículos.

Cabe destacar que los desarrolladores pueden descargar los pesos mixtos de este modelo en Kaggle y Hugging Face para facilitar la experimentación y el desarrollo. Si está interesado en este modelo, puede explorarlo a través de la plataforma de demostración de Hugging Face para comprender sus potentes capacidades y su potencial de aplicación.

Con el lanzamiento de PaliGemma2Mix, la investigación de Google en el campo de los modelos de lenguaje visual ha avanzado un paso más. Se espera que esta tecnología demuestre un mayor valor en aplicaciones reales.

Informe técnico: https://arxiv.org/abs/2412.03555