El laboratorio de investigación DAMO de Alibaba ha lanzado recientemente Valley2, un modelo de lenguaje grande multi-modal diseñado para entornos de comercio electrónico. Este modelo, basado en una arquitectura visual-lingüística escalable, busca mejorar el rendimiento en diversas áreas y ampliar las aplicaciones en comercio electrónico y videos cortos.

微信截图_20250115084005.png

Valley2 utiliza Qwen2.5 como base del LLM, junto con un codificador visual SigLIP-384, combinando capas MLP y convoluciones para una transformación eficiente de características. Su innovación radica en la introducción de un gran vocabulario visual, un adaptador convolucional (ConvAdapter) y el módulo Eagle, lo que mejora la flexibilidad en el manejo de diversas entradas del mundo real y la eficiencia de entrenamiento e inferencia.

Los datos de Valley2 se componen de datos de estilo OneVision, datos específicos para comercio electrónico y videos cortos, y datos de razonamiento en cadena (CoT) para la resolución de problemas complejos. El entrenamiento se divide en cuatro etapas: alineación texto-imagen, aprendizaje de conocimiento de alta calidad, ajuste fino por instrucciones y post-entrenamiento de razonamiento en cadena.

En las pruebas, Valley2 ha demostrado un rendimiento excepcional en varios benchmarks públicos, obteniendo altas puntuaciones en MMBench, MMStar, MathVista y superando a otros modelos de tamaño similar en el benchmark Ecom-VQA.

En el futuro, el laboratorio DAMO de Alibaba planea lanzar un modelo omnicapacitario que incluya texto, imágenes, video y audio, e introducir un método de entrenamiento de incrustaciones multi-modales basado en Valley para soportar aplicaciones de búsqueda y detección.

El lanzamiento de Valley2 representa un avance significativo en el campo de los modelos de lenguaje grandes multi-modales, mostrando la posibilidad de mejorar el rendimiento del modelo mediante mejoras en la arquitectura, la construcción de conjuntos de datos y la optimización de las estrategias de entrenamiento.

Enlace del modelo:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

Enlace del código:

https://github.com/bytedance/Valley

Enlace del artículo:

https://arxiv.org/abs/2501.05901