Pesquisadores da Universidade de Nanjing e do Instituto de Pesquisa Megvii uniram forças para revolucionar os modelos de visão de grande escala. Seu paradigma não supervisionado, SeVa, resolveu com sucesso o problema do alinhamento de preferências em modelos de linguagem visual, tudo isso sem a necessidade de intervenção humana ou do GPT-4, reduzindo significativamente os custos de alinhamento.
O cerne da tecnologia reside em um pipeline automatizado para construção de dados de preferência. Comparando a saída do modelo antes e depois do alinhamento de preferências, as mudanças são evidentes. Os pesquisadores descobriram que mesmo pequenas ampliações de imagem podem levar o VLM a fornecer respostas diferentes para a mesma pergunta. Portanto, eles usaram a resposta da imagem original como amostra positiva e a resposta da imagem aumentada como amostra negativa para treinamento.
Os resultados experimentais do SeVa são impressionantes. Usando apenas 8k de dados não supervisionados construídos, houve uma melhoria significativa na capacidade de seguir instruções do VLM, redução de alucinações e melhorias significativas em benchmarks multimodais. Mais importante ainda, o método é simples, fácil de implementar e de baixo custo, sem necessidade de qualquer anotação humana ou do GPT-4.
Os resultados dos testes em vários benchmarks demonstram que o SeVa possui uma vantagem significativa na melhoria do alinhamento de preferências humanas em modelos de visão. Seu desempenho foi particularmente notável nas avaliações do GPT-4, MmVet e LLaVA-bench. Além disso, o SeVa produz respostas mais longas e detalhadas, com maior consistência em cada resposta e maior robustez a perturbações de diferentes temperaturas.
Esta pesquisa não apenas fornece uma solução eficaz para o problema de alinhamento de modelos de visão de grande escala, mas também abre novas possibilidades para o desenvolvimento da IA. Com a disponibilização do código-fonte do SeVa, podemos prever que mais pesquisadores e desenvolvedores utilizarão este paradigma para impulsionar o desenvolvimento de tecnologias de IA. Nesta era repleta de infinitas possibilidades, vamos juntos aguardar as novas surpresas que a tecnologia de IA nos reserva.
Endereço do projeto: https://github.com/Kevinz-code/SeVa