Con el continuo desarrollo de la tecnología de inteligencia artificial, la fusión de datos visuales y de texto se ha convertido en un desafío complejo. Los modelos tradicionales suelen tener dificultades para analizar con precisión documentos visuales estructurados como tablas, gráficos, infografías e ilustraciones. Esta limitación afecta la capacidad de extracción y comprensión automática de contenido, lo que a su vez impacta en aplicaciones como el análisis de datos, la recuperación de información y la toma de decisiones. Para abordar esta necesidad, IBM ha lanzado recientemente Granite-Vision-3.1-2B, un modelo de lenguaje visual pequeño diseñado específicamente para la comprensión de documentos.

image.png

Granite-Vision-3.1-2B puede extraer contenido de diversos formatos visuales, incluyendo tablas, gráficos e ilustraciones. El modelo se entrenó con un conjunto de datos cuidadosamente seleccionado, que incluye fuentes públicas y sintéticas, y puede manejar diversas tareas relacionadas con documentos. Como versión mejorada del modelo de lenguaje grande Granite, integra las modalidades de imagen y texto, lo que mejora su capacidad de interpretación y lo hace adecuado para diversas aplicaciones prácticas.

El modelo consta de tres componentes clave: en primer lugar, un codificador visual que utiliza SigLIP para procesar y codificar eficientemente los datos visuales; en segundo lugar, un conector visual-lingüístico, un perceptrón multicapa (MLP) de dos capas con función de activación GELU, diseñado para conectar la información visual y textual; y finalmente, un modelo de lenguaje grande basado en Granite-3.1-2B-Instruct, con una longitud de contexto de 128k, capaz de procesar entradas complejas y voluminosas.

Durante el entrenamiento, Granite-Vision-3.1-2B se inspiró en LlaVA y combinó las características de codificadores multicapa, así como una resolución de cuadrícula más densa en AnyRes. Estas mejoras aumentaron la capacidad del modelo para comprender contenido visual detallado, permitiéndole realizar tareas de documentos visuales con mayor precisión, como analizar tablas y gráficos, realizar reconocimiento óptico de caracteres (OCR) y responder consultas basadas en documentos.

Los resultados de la evaluación muestran que Granite-Vision-3.1-2B obtuvo un rendimiento excelente en varias pruebas de referencia, especialmente en la comprensión de documentos. En la prueba de referencia ChartQA, el modelo obtuvo una puntuación de 0.86, superando a otros modelos con parámetros en el rango de 1B-4B. En la prueba de referencia TextVQA, obtuvo una puntuación de 0.76, demostrando una sólida capacidad para analizar y responder a información textual incrustada en imágenes. Estos resultados destacan el potencial del modelo para el procesamiento preciso de datos visuales y de texto en aplicaciones empresariales.

El Granite-Vision-3.1-2B de IBM representa un avance significativo en los modelos de lenguaje visual, ofreciendo una solución equilibrada para la comprensión de documentos visuales. Su arquitectura y método de entrenamiento le permiten analizar y procesar de manera eficiente datos visuales y de texto complejos. Gracias a su compatibilidad nativa con transformadores y vLLM, el modelo se puede adaptar a múltiples casos de uso y se puede implementar en entornos en la nube como Colab T4, proporcionando a investigadores y profesionales una herramienta práctica para mejorar la capacidad de procesamiento de documentos impulsada por IA.

Modelo:https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview

Puntos clave:

🌟 Granite-Vision-3.1-2B es un modelo de lenguaje visual pequeño lanzado por IBM, diseñado específicamente para la comprensión de documentos y capaz de procesar la extracción de contenido de diversos formatos visuales.

📊 El modelo consta de tres partes: un codificador visual, un conector visual-lingüístico y un modelo de lenguaje grande, lo que mejora la capacidad de comprensión de entradas complejas.

🏆 Obtuvo un rendimiento excelente en varias pruebas de referencia, especialmente en el campo de la comprensión de documentos, mostrando un gran potencial para aplicaciones empresariales.