En los últimos años, los Grandes Modelos de Lenguaje Visual (LVLMs, por sus siglas en inglés) han demostrado una capacidad excepcional en la comprensión de imágenes y tareas multimodales. Sin embargo, el problema de las "alucinaciones" se ha vuelto cada vez más pronunciado. Para abordar este desafío, el equipo del laboratorio de vida futura de Taobao ha propuesto un nuevo método llamado "Optimización de Preferencia de Tokens" (Token Preference Optimization, TPO), e introdujo un mecanismo de recompensa de anclaje visual autocalibrado.
La mayor innovación de TPO radica en que logra señales de recompensa a nivel de token de forma automática. Este método puede identificar automáticamente los tokens de anclaje visual en los datos de preferencia, evitando la tediosa anotación manual de grano fino. Simultáneamente, asigna a cada token una recompensa que refleja su grado de dependencia de la información visual durante el entrenamiento. Esta señal de recompensa de anclaje visual autocalibrada tiene como objetivo optimizar la dependencia del modelo en la información visual, reduciendo así eficazmente la aparición de alucinaciones.
Los estudios demuestran que los modelos que utilizan TPO superan significativamente a los métodos tradicionales en varios conjuntos de evaluación, especialmente en tareas más complejas. En estas tareas, las respuestas generadas por el modelo dependen cada vez más de la información de la imagen en lugar del conocimiento previo del modelo de lenguaje. Este avance no solo mejora la capacidad de comprensión del modelo, sino que también proporciona una base teórica importante para futuras investigaciones.
Además, el equipo de investigación realizó experimentos de ablación con diferentes configuraciones de parámetros de TPO, descubriendo que los pasos de optimización con ruido y las estrategias de asignación de recompensas pueden mejorar aún más el rendimiento del modelo. Este hallazgo sin duda indica el camino para futuras investigaciones y aplicaciones de grandes modelos de lenguaje visual.
En resumen, este innovador logro de Taobao proporciona nuevas ideas para la tecnología de alineación multimodal, impulsando la aplicación profunda de la tecnología de IA en los ámbitos de la vida y el consumo.