Con el rápido desarrollo de la inteligencia artificial, la integración de la visión y el lenguaje ha impulsado avances innovadores en los modelos de lenguaje visual (VLMs). Estos modelos están diseñados para procesar y comprender simultáneamente datos visuales y de texto, con amplias aplicaciones en la descripción de imágenes, preguntas y respuestas visuales, reconocimiento óptico de caracteres y análisis de contenido multimodal.

Los VLMs han jugado un papel importante en el desarrollo de sistemas autónomos, la mejora de la interacción humano-computadora y la creación de herramientas eficientes de procesamiento de documentos, logrando cerrar la brecha entre estas dos modalidades de datos. Sin embargo, aún existen muchos desafíos en el procesamiento de datos visuales de alta resolución y entradas de texto diversas.

Las investigaciones actuales han abordado parcialmente estas limitaciones, pero la mayoría de los modelos utilizan codificadores visuales estáticos que carecen de adaptabilidad a altas resoluciones y tamaños de entrada variables. Además, la combinación de modelos de lenguaje preentrenados con codificadores visuales suele ser ineficiente, ya que no están optimizados para tareas multimodales. Aunque algunos modelos han introducido técnicas de computación dispersa para gestionar la complejidad, la precisión en diferentes conjuntos de datos sigue siendo insuficiente. Asimismo, los conjuntos de datos de entrenamiento de los modelos existentes suelen carecer de diversidad y especificidad de tareas, lo que limita aún más su rendimiento. Por ejemplo, muchos modelos muestran un rendimiento deficiente en tareas especializadas como la interpretación de gráficos o el análisis de documentos densos.

Recientemente, DeepSeek-AI ha lanzado la nueva serie de modelos de lenguaje visual híbridos de expertos (MoE) de código abierto DeepSeek-VL2. Esta serie de modelos combina tecnologías innovadoras de vanguardia, incluyendo el rebanado dinámico de codificación visual, un mecanismo de atención latente de múltiples cabezas y el marco DeepSeek-MoE.

image.png

La serie DeepSeek-VL2 ofrece tres configuraciones de parámetros diferentes:

- DeepSeek-VL2-Tiny: 3.370 millones de parámetros (1.000 millones de parámetros de activación)

- DeepSeek-VL2-Small: 16.100 millones de parámetros (2.800 millones de parámetros de activación)

- DeepSeek-VL2: 27.500 millones de parámetros (4.500 millones de parámetros de activación)

Esta escalabilidad garantiza su capacidad de adaptación a diferentes necesidades de aplicación y presupuestos de computación.

La arquitectura de DeepSeek-VL2 está diseñada para optimizar el rendimiento y reducir al mismo tiempo las necesidades de computación. El método de rebanado dinámico garantiza que el procesamiento de imágenes de alta resolución no pierda detalles cruciales, lo que lo hace ideal para tareas de análisis de documentos y localización visual. Además, el mecanismo de atención latente de múltiples cabezas permite al modelo procesar eficientemente grandes cantidades de datos de texto, reduciendo los costos computacionales generalmente asociados con el procesamiento de entradas de lenguaje densas. El entrenamiento de DeepSeek-VL2 abarca conjuntos de datos multimodales diversos, lo que le permite destacar en diversas tareas como el reconocimiento óptico de caracteres, preguntas y respuestas visuales e interpretación de gráficos.

image.png

Según las pruebas de rendimiento, la configuración Small alcanzó una precisión del 92,3% en la tarea de reconocimiento óptico de caracteres, superando significativamente a los modelos existentes. En las pruebas de referencia de localización visual, el modelo mejoró la precisión en un 15% en comparación con sus predecesores.

Al mismo tiempo, DeepSeek-VL2 mantiene la precisión de vanguardia mientras reduce los requisitos de recursos informáticos en un 30%. Estos resultados demuestran la superioridad del modelo en el procesamiento de imágenes de alta resolución y texto.

Enlace al proyecto: https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab

Puntos clave:

🌟 La serie DeepSeek-VL2 ofrece varias configuraciones de parámetros para adaptarse a diferentes necesidades de aplicación.

💡 La tecnología de rebanado dinámico mejora la eficiencia del procesamiento de imágenes de alta resolución, ideal para el análisis de documentos complejos.

🔍 El modelo ofrece un rendimiento excepcional en tareas de reconocimiento óptico de caracteres y localización visual, con una mejora significativa en la precisión.