A equipe de pesquisa da Groundlight, sempre focada em permitir que a IA entenda o mundo, recentemente lançou uma grande novidade: um novo framework de IA de código aberto! Este framework visa superar um grande desafio na área de visão computacional — o raciocínio visual complexo — permitindo que a IA não apenas "reconheça imagens", mas também raciocine informações mais profundas a partir delas, como um Sherlock Holmes.

Sabemos que a IA atual já é mestre em reconhecer gatos e cachorros, mas fazê-la entender as relações lógicas por trás das imagens e realizar raciocínios mais complexos ainda é um grande obstáculo. Os pesquisadores da Groundlight apontam que os modelos atuais de linguagem visual (VLM) têm dificuldades em entender as imagens em si, tornando ainda mais difícil a realização de tarefas que exigem interpretação profunda.

QQ_1742194787910.png

Embora os grandes modelos de linguagem (LLM) tenham feito grandes avanços no raciocínio textual, avanços semelhantes na área visual ainda são limitados. Os VLMs existentes frequentemente apresentam desempenho ruim quando precisam combinar pistas visuais e textuais para realizar inferências lógicas, o que destaca uma deficiência crucial em suas capacidades. Simplesmente identificar objetos em uma imagem é insuficiente; entender as relações entre os objetos e o contexto é fundamental.

Aprendizado por Reforço para ajudar, GRPO cria uma "mente poderosa"

Para melhorar a capacidade de raciocínio visual dos VLMs, a equipe de pesquisa da Groundlight adotou de forma criativa o método de aprendizado por reforço e utilizou inovadoramente o GRPO (Gradient Ratio Policy Optimization) para aumentar a eficiência do aprendizado.

Pesquisas anteriores, como o trabalho da Deepseek e a inferência avançada de modelos de linguagem, raramente expandiram essas técnicas para a área de VLM. Para validar seu método, os pesquisadores projetaram uma tarefa de decifração de códigos que exige o processamento simultâneo de informações visuais e textuais. O modelo precisava usar uma imagem de decodificador gerada aleatoriamente para interpretar informações codificadas. No final, um modelo com apenas 3 bilhões de parâmetros atingiu uma precisão de 96%! A análise de atenção mostrou que o modelo participava ativamente da entrada visual ao resolver a tarefa, focando nas áreas relevantes do decodificador.

Treinar o VLM usando GRPO não foi fácil, especialmente nos aspectos de tokenização e design de recompensas. Como os modelos geralmente processam texto como tokens e não como caracteres individuais, tarefas que exigem inferência precisa em nível de caractere podem ser difíceis.

Para mitigar esse problema, os pesquisadores adicionaram espaços entre as letras das mensagens para simplificar o processo de decodificação. O design de recompensas é outro aspecto crucial, pois os modelos de aprendizado por reforço precisam de feedback bem estruturado para aprender eficazmente. Os pesquisadores usaram três tipos de recompensas: recompensa de formato, para garantir a consistência da saída; recompensa de decodificação, para incentivar a conversão significativa de texto codificado; e recompensa de precisão, para aumentar a precisão. Ao equilibrar cuidadosamente essas recompensas, os pesquisadores conseguiram evitar que o modelo aprendesse "atalhos" inesperados, garantindo que ele realmente melhorasse sua capacidade de decifrar códigos.

O GRPO otimiza o processo de aprendizado comparando várias saídas, em vez de depender do cálculo de gradiente direto, o que proporciona maior estabilidade ao treinamento. Ao gerar várias respostas para cada consulta e avaliá-las mutuamente, esse método resulta em uma curva de aprendizado mais suave. Este estudo também destaca o potencial dos VLMs em tarefas baseadas em raciocínio, mas reconhece o alto custo computacional dos modelos visuais complexos.

Para resolver o problema de eficiência, eles propuseram técnicas como atualização seletiva do modelo, ou seja, usar modelos mais caros apenas quando há ambiguidade. Além disso, eles sugerem a integração de modelos pré-treinados de detecção de objetos, segmentação e estimativa de profundidade para melhorar a capacidade de raciocínio sem aumentar significativamente o custo computacional. Essa abordagem baseada em ferramentas oferece uma alternativa escalável para treinar grandes modelos de ponta a ponta, enfatizando o equilíbrio entre eficiência e precisão.

A equipe da Groundlight fez progressos significativos no aprimoramento dos VLMs integrando técnicas de aprendizado por reforço, especialmente o GRPO. Eles testaram seu método em uma tarefa de decifração de códigos, e o modelo apresentou uma precisão impressionante.

Projeto: https://github.com/groundlight/r1_vlm

Demo: https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder