El 21 de febrero de 2025, el equipo de internacionalización de Alibaba anunció el lanzamiento de código abierto de su nuevo modelo de lenguaje multimodal de gran tamaño, la serie Ovis2.

Ovis2 es la última versión del modelo de la serie Ovis propuesto por el equipo de internacionalización de Alibaba. En comparación con la versión anterior 1.6, Ovis2 presenta mejoras significativas en la construcción de datos y los métodos de entrenamiento. No solo refuerza la densidad de capacidad de los modelos de pequeña escala, sino que también mejora significativamente la capacidad de razonamiento de la cadena de pensamiento (CoT) mediante el ajuste de instrucciones y el aprendizaje de preferencias. Además, Ovis2 incorpora la capacidad de procesamiento de video e imágenes múltiples, y mejora las capacidades multilingües y la capacidad OCR en escenarios complejos, lo que aumenta significativamente la utilidad del modelo.

La serie Ovis2 lanzada como código abierto incluye seis versiones: 1B, 2B, 4B, 8B, 16B y 34B. Todas las versiones con diferentes parámetros alcanzaron el nivel SOTA (State of the Art) para su tamaño. Entre ellas, Ovis2-34B ha demostrado un rendimiento excepcional en la lista de evaluación autorizada OpenCompass. En la lista de capacidades multimodales generales, Ovis2-34B ocupa el segundo lugar entre todos los modelos de código abierto, superando a numerosos modelos insignia de código abierto de 70B con menos de la mitad del tamaño de parámetros. En la lista de razonamiento matemático multimodal, Ovis2-34B ocupa el primer lugar entre todos los modelos de código abierto, y las versiones de otros tamaños también muestran una excelente capacidad de razonamiento. Estos logros no solo demuestran la eficacia de la arquitectura Ovis, sino que también muestran el enorme potencial de la comunidad de código abierto para impulsar el desarrollo de modelos de gran tamaño multimodales.

微信截图_20250221172215.png

El diseño de la arquitectura de Ovis2 resuelve ingeniosamente la limitación de las diferencias en las estrategias de incrustación entre los modos. Se compone de tres componentes clave: un tokenizer visual, una tabla de incrustación visual y un LLM. El tokenizer visual divide la imagen de entrada en varios bloques de imagen, utiliza el Transformer visual para extraer características y, mediante la capa de cabeza visual, hace coincidir las características con las "palabras visuales", obteniendo tokens visuales probabilísticos. La tabla de incrustación visual almacena los vectores de incrustación correspondientes a cada palabra visual, mientras que el LLM procesa la concatenación de los vectores de incrustación visual y textual para generar la salida de texto y completar las tareas multimodales.

En cuanto a la estrategia de entrenamiento, Ovis2 adopta un método de entrenamiento de cuatro etapas para despertar plenamente su capacidad de comprensión multimodal. En la primera etapa, se congelan la mayoría de los parámetros de LLM y ViT, y se entrena el módulo visual para aprender la conversión de las características visuales a incrustaciones. La segunda etapa refuerza aún más la capacidad de extracción de características del módulo visual, mejorando la comprensión de imágenes de alta resolución, las capacidades multilingües y OCR. La tercera etapa alinea las incrustaciones visuales y el formato de diálogo de LLM mediante datos de subtítulos visuales en forma de diálogo. La cuarta etapa es el entrenamiento de instrucciones multimodales y el aprendizaje de preferencias, mejorando aún más la capacidad del modelo para seguir las instrucciones del usuario y la calidad de la salida en varios modos.

Para mejorar la capacidad de comprensión de video, Ovis2 ha desarrollado un innovador algoritmo de selección de fotogramas clave. Este algoritmo selecciona los fotogramas de video más útiles en función de la correlación entre los fotogramas y el texto, la diversidad de la combinación entre los fotogramas y la secuencialidad de los fotogramas. Mediante el cálculo de similitud condicional de alta dimensión, el proceso puntual determinante (DPP) y el proceso de decisión de Markov (MDP), el algoritmo puede seleccionar fotogramas clave de manera eficiente en un contexto visual limitado, mejorando así el rendimiento de la comprensión de video.

El rendimiento de la serie de modelos Ovis2 en la lista de evaluación multimodal OpenCompass es particularmente destacado. Los modelos de diferentes tamaños han logrado resultados SOTA en varios puntos de referencia. Por ejemplo, Ovis2-34B ocupa el segundo y el primer lugar en las listas de capacidad multimodal general y razonamiento matemático, respectivamente, mostrando su potente rendimiento. Además, Ovis2 también ha logrado un rendimiento líder en la lista de comprensión de video, lo que demuestra aún más sus ventajas en tareas multimodales.

El equipo de internacionalización de Alibaba afirma que el código abierto es una fuerza clave para impulsar el progreso de la tecnología de IA. Al compartir públicamente los resultados de la investigación de Ovis2, el equipo espera explorar conjuntamente los avances de los modelos de gran tamaño multimodales con los desarrolladores de todo el mundo y estimular más aplicaciones innovadoras. Actualmente, el código de Ovis2 ya se ha publicado en GitHub, el modelo se puede obtener en las plataformas Hugging Face y Modelscope, y se proporciona una demostración en línea para que los usuarios lo experimenten. El artículo de investigación correspondiente también se ha publicado en arXiv para que los desarrolladores e investigadores lo consulten.

Código: https://github.com/AIDC-AI/Ovis

Modelo (Huggingface): https://huggingface.co/AIDC-AI/Ovis2-34B

Modelo (Modelscope): https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

arXiv: https://arxiv.org/abs/2405.20797