Investigadores de la Universidad de Nanjing y el Instituto de Investigación Megvii han unido fuerzas para revolucionar los modelos visuales de gran escala. Su nuevo paradigma sin supervisión, SeVa, resuelve con éxito el problema de la alineación de preferencias en los modelos de lenguaje visual, todo ello sin necesidad de intervención humana o de GPT-4, reduciendo drásticamente los costes de alineación.
El núcleo de esta tecnología reside en un pipeline automatizado para la construcción de datos de preferencia. Comparando la salida del modelo antes y después de la alineación de preferencias, se observan cambios significativos. Los investigadores descubrieron que incluso aumentos mínimos en las imágenes pueden provocar respuestas diferentes del VLM (modelo de lenguaje visual) a la misma pregunta. Por lo tanto, utilizan la respuesta a la imagen original como muestra positiva y la respuesta a la imagen aumentada como muestra negativa para el entrenamiento.
Los resultados experimentales de SeVa son impresionantes. Utilizando solo 8.000 datos construidos sin supervisión, se mejora significativamente la capacidad de seguir instrucciones del VLM, se reducen las alucinaciones y se obtienen mejoras notables en varios benchmarks multimodales. Lo más importante es que este método es sencillo, económico y no requiere ninguna anotación humana ni de GPT-4.
Las pruebas en múltiples benchmarks demuestran la notable ventaja de SeVa en la mejora de la alineación de preferencias humanas en los modelos visuales. Su rendimiento es especialmente destacado en MmVet y LLaVA-bench, evaluados por GPT-4. Además, SeVa genera respuestas más largas y detalladas, con mayor consistencia en cada respuesta y mayor robustez ante perturbaciones de diferentes temperaturas.
Esta investigación no solo ofrece una solución eficaz al problema de la alineación de los modelos visuales de gran escala, sino que también abre nuevas posibilidades para el desarrollo del campo de la IA. Con la publicación de código abierto de SeVa, podemos prever que más investigadores y desarrolladores utilizarán este paradigma para impulsar el avance de la tecnología de IA. En esta era llena de posibilidades infinitas, esperemos juntos las sorpresas que la tecnología de IA nos depara.
Dirección del proyecto: https://github.com/Kevinz-code/SeVa