Recientemente, un equipo de investigación de la Universidad de Pekín y otras instituciones anunció el lanzamiento de LLaVA-o1, un modelo multimodal de código abierto. Se afirma que es el primer modelo de lenguaje visual capaz de realizar razonamiento espontáneo y sistemático, comparable a GPT-o1.

Este modelo ha demostrado un rendimiento excepcional en seis desafiantes pruebas de referencia multimodales. Su versión de 11B parámetros supera a otros competidores como Gemini-1.5-pro, GPT-4o-mini y Llama-3.2-90B-Vision-Instruct.

image.png

LLaVA-o1 se basa en el modelo Llama-3.2-Vision y emplea un mecanismo de razonamiento de "pensamiento lento". Esto le permite realizar procesos de razonamiento más complejos de forma autónoma, superando los métodos tradicionales de indicaciones de cadena de pensamiento.

En las pruebas de referencia de razonamiento multimodal, LLaVA-o1 superó el rendimiento de su modelo base en un 8,9%. Su singularidad radica en su proceso de razonamiento dividido en cuatro etapas: resumen, interpretación visual, razonamiento lógico y generación de conclusiones. A diferencia de los modelos tradicionales, cuyo proceso de razonamiento suele ser más simple y propenso a errores, LLaVA-o1 garantiza una salida más precisa mediante un razonamiento estructurado en múltiples pasos.

Por ejemplo, al resolver el problema "¿Cuántos objetos quedan después de restar todas las bolas brillantes y los objetos púrpuras?", LLaVA-o1 primero resume la pregunta, luego extrae información de la imagen y, a continuación, realiza un razonamiento paso a paso para finalmente dar la respuesta. Este método por etapas mejora la capacidad de razonamiento sistemático del modelo, haciéndolo más eficiente en el tratamiento de problemas complejos.

image.png

Cabe destacar que LLaVA-o1 incorpora un método de búsqueda en haz a nivel de etapa en su proceso de razonamiento. Este método permite al modelo generar múltiples respuestas candidatas en cada etapa de razonamiento y seleccionar la mejor para continuar con la siguiente etapa, mejorando así significativamente la calidad general del razonamiento. Gracias al ajuste fino supervisado y a los datos de entrenamiento adecuados, LLaVA-o1 destaca en comparación con modelos más grandes o de código cerrado.

Los resultados de la investigación del equipo de la Universidad de Pekín no solo impulsan el desarrollo de la IA multimodal, sino que también ofrecen nuevas ideas y métodos para los futuros modelos de comprensión del lenguaje visual. El equipo afirma que el código, los pesos preentrenados y el conjunto de datos de LLaVA-o1 serán de código abierto, esperando que más investigadores y desarrolladores exploren y apliquen este innovador modelo.

Artículo: https://arxiv.org/abs/2411.10440

GitHub: https://github.com/PKU-YuanGroup/LLaVA-o1

Puntos clave:

🌟 LLaVA-o1 es un nuevo modelo de razonamiento multimodal presentado por un equipo de la Universidad de Pekín y otras instituciones, con capacidad de razonamiento de "pensamiento lento".

📈 El modelo supera el rendimiento de su modelo base en un 8,9% en las pruebas de referencia de razonamiento multimodal.

🔍 LLaVA-o1 garantiza la precisión mediante un razonamiento estructurado en múltiples pasos y se lanzará como código abierto próximamente.