Nos últimos anos, os Grandes Modelos de Linguagem Visual (Large Vision Language Models, LVLMs) demonstraram capacidades extraordinárias na compreensão de imagens e em tarefas multimodais. No entanto, o problema das "alucinações" tem se tornado cada vez mais evidente. Para enfrentar esse desafio, a equipe do Future Living Lab da Taobao apresentou um novo método chamado "Otimização de Preferência de Tokens" (Token Preference Optimization, TPO), introduzindo um mecanismo de recompensa de ancoragem visual autocalibrado.
A maior inovação do TPO reside na sua capacidade de gerar automaticamente sinais de recompensa em nível de token. Este método identifica automaticamente tokens de ancoragem visual em dados de preferência, evitando a trabalhosa anotação manual em detalhes, e atribui a cada token uma recompensa que reflete seu grau de dependência das informações visuais durante o treinamento. Este sinal de recompensa de ancoragem visual autocalibrado visa otimizar a dependência do modelo em informações visuais, reduzindo efetivamente a ocorrência de alucinações.
Estudos demonstram que modelos que utilizam o TPO superam significativamente os métodos tradicionais em vários benchmarks de avaliação, especialmente em tarefas mais complexas, onde as respostas geradas pelo modelo dependem cada vez mais das informações da imagem, em vez do conhecimento prévio do modelo de linguagem. Este avanço não apenas melhora a capacidade de compreensão do modelo, mas também fornece uma base teórica importante para pesquisas futuras.
Além disso, a equipe de pesquisa realizou experimentos de ablação com diferentes configurações de parâmetros do TPO, descobrindo que etapas de adição de ruído otimizadas e estratégias de atribuição de recompensas podem melhorar ainda mais o desempenho do modelo. Esta descoberta, sem dúvida, aponta o caminho para futuras pesquisas e aplicações de grandes modelos de linguagem visual.
Em resumo, esta inovação da Taobao oferece novas perspectivas para a tecnologia de alinhamento multimodal, impulsionando a aplicação da IA em áreas de vida e consumo.