El equipo de investigación de Groundlight, dedicado a permitir que la IA comprenda el mundo, ha realizado un gran avance: ha anunciado la publicación de código abierto de un nuevo marco de IA. Este marco tiene como objetivo superar un gran desafío en el campo de la visión artificial: el razonamiento visual complejo, permitiendo que la IA no solo "reconozca imágenes", sino que también pueda, como Sherlock Holmes, inferir información más profunda de las imágenes.
Sabemos que la IA actual es excelente para reconocer gatos y perros, pero a menudo se "atasca" cuando se trata de comprender las relaciones lógicas detrás de las imágenes y realizar inferencias más complejas. Los investigadores de Groundlight señalan que los modelos actuales de lenguaje visual (VLM) tienen dificultades para comprender las imágenes en sí mismas, lo que dificulta aún más la realización de tareas que requieren una interpretación profunda.
Si bien los grandes modelos de lenguaje (LLM) han logrado un gran progreso en el razonamiento textual, los avances similares en el campo de la visión son todavía limitados. Los VLM existentes a menudo funcionan mal cuando necesitan combinar pistas visuales y textuales para realizar deducciones lógicas, lo que pone de manifiesto una deficiencia clave en sus capacidades. Simplemente identificar los objetos en una imagen no es suficiente; comprender las relaciones entre los objetos y el contexto es fundamental.
El aprendizaje por refuerzo ayuda a GRPO a lograr un "cerebro superior"
Para mejorar la capacidad de razonamiento visual de los VLM, el equipo de investigación de Groundlight ha empleado ingeniosamente el método de aprendizaje por refuerzo y ha utilizado de forma innovadora GRPO (Gradient Ratio Policy Optimization) para aumentar la eficiencia del aprendizaje.
Estudios previos, como el trabajo de Deepseek y la inferencia avanzada de modelos de lenguaje, rara vez han extendido estas técnicas al campo de los VLM. Para verificar su método, los investigadores diseñaron una tarea de descifrado de códigos que requiere procesar simultáneamente información visual y textual. El modelo necesita usar una imagen de decodificador generada aleatoriamente para interpretar la información codificada. Finalmente, ¡un modelo con solo 3 mil millones de parámetros alcanzó una precisión del 96%! El análisis de atención muestra que el modelo participa activamente en la entrada visual al resolver la tarea, concentrándose en las áreas relevantes del decodificador.
Entrenar VLM con GRPO no fue fácil, especialmente en cuanto a la tokenización y el diseño de recompensas. Dado que los modelos suelen procesar el texto como tokens en lugar de caracteres individuales, pueden surgir dificultades con tareas que requieren inferencia precisa a nivel de caracteres.
Para mitigar este problema, los investigadores agregaron espacios entre las letras del mensaje para simplificar el proceso de decodificación. El diseño de recompensas es otro aspecto crucial, ya que los modelos de aprendizaje por refuerzo necesitan retroalimentación bien estructurada para aprender eficazmente. Los investigadores utilizaron tres tipos de recompensas: recompensa de formato, para asegurar la coherencia de la salida; recompensa de decodificación, para fomentar la conversión significativa de texto codificado; y recompensa de corrección, para mejorar la precisión. Al equilibrar cuidadosamente estas recompensas, los investigadores evitaron con éxito que el modelo aprendiera "atajos" inesperados, asegurando que realmente mejorara su capacidad de descifrado de códigos.
GRPO optimiza el proceso de aprendizaje comparando múltiples salidas en lugar de depender del cálculo de gradientes directos, lo que proporciona una mayor estabilidad al entrenamiento. Al generar múltiples respuestas para cada consulta y evaluarlas mutuamente, este método logra una curva de aprendizaje más suave. Este estudio también destaca el potencial de los VLM en tareas basadas en el razonamiento, pero reconoce el alto coste computacional de los modelos visuales complejos.
Para resolver el problema de la eficiencia, propusieron técnicas como la actualización selectiva del modelo, es decir, utilizar modelos más costosos solo cuando hay ambigüedad. Además, sugieren la integración de modelos preentrenados de detección de objetos, segmentación y estimación de profundidad para mejorar la capacidad de razonamiento sin aumentar significativamente los costes computacionales. Este método basado en herramientas ofrece una alternativa escalable para entrenar modelos grandes de extremo a extremo, haciendo hincapié en el equilibrio entre eficiencia y precisión.
El equipo de Groundlight ha logrado avances significativos en la mejora de los VLM mediante la integración de técnicas de aprendizaje por refuerzo, especialmente GRPO. Probaron su método en una tarea de descifrado de códigos, y el modelo mostró una precisión impresionante.
Proyecto: https://github.com/groundlight/r1_vlm
Demo: https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder