近年来,视觉大模型(Large Vision Language Models, LVLMs)在图像理解和跨模态任务中展现出非凡的能力,然而随之而来的 “幻觉现象” 问题也日益突出。为了应对这一挑战,淘天集团的未来生活实验室团队提出了一种名为 “令牌偏好优化”(Token Preference Optimization,简称 TPO)的新方法,并引入了一种自我校准的视觉锚定奖励机制。
TPO 的最大创新在于它实现了自动化的令牌级奖励信号。这一方法能够自动识别偏好数据中的视觉锚定令牌,避免了人工细粒度标注的繁琐,同时在训练过程中为每个令牌分配了反映其与视觉信息依赖程度的奖励。这一自校准的视觉锚定奖励信号,旨在优化模型对视觉信息的依赖性,从而有效减轻幻觉现象的发生。
研究表明,采用 TPO 的模型在多个评测基准中显著优于传统的方法,尤其是在更复杂的任务中,模型生成的答案越来越依赖于图像信息而非语言模型的先验知识。这一进步不仅提升了模型的理解能力,也为进一步研究提供了重要的理论基础。
此外,研究团队还对 TPO 的不同参数设置进行了消融实验,发现优化的加噪步骤和奖励分配策略能够进一步提高模型性能。这一发现无疑为未来的视觉大模型研究和应用指明了方向。
总之,淘天的这一创新成果为多模态对齐技术提供了新的思路,推动了 AI 技术在生活和消费领域的深入应用。