淘天推出创新对齐方法，解决视觉大模型中的幻觉问题

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年1月20号 10:24

近年来，视觉大模型（Large Vision Language Models， LVLMs）在图像理解和跨模态任务中展现出非凡的能力，然而随之而来的 “幻觉现象” 问题也日益突出。为了应对这一挑战，淘天集团的未来生活实验室团队提出了一种名为 “令牌偏好优化”(Token Preference Optimization，简称 TPO)的新方法，并引入了一种自我校准的视觉锚定奖励机制。

TPO 的最大创新在于它实现了自动化的令牌级奖励信号。这一方法能够自动识别偏好数据中的视觉锚定令牌，避免了人工细粒度标注的繁琐，同时在训练过程中为每个令牌分配了反映其与视觉信息依赖程度的奖励。这一自校准的视觉锚定奖励信号，旨在优化模型对视觉信息的依赖性，从而有效减轻幻觉现象的发生。

研究表明，采用 TPO 的模型在多个评测基准中显著优于传统的方法，尤其是在更复杂的任务中，模型生成的答案越来越依赖于图像信息而非语言模型的先验知识。这一进步不仅提升了模型的理解能力，也为进一步研究提供了重要的理论基础。

此外，研究团队还对 TPO 的不同参数设置进行了消融实验，发现优化的加噪步骤和奖励分配策略能够进一步提高模型性能。这一发现无疑为未来的视觉大模型研究和应用指明了方向。

总之，淘天的这一创新成果为多模态对齐技术提供了新的思路，推动了 AI 技术在生活和消费领域的深入应用。

百度智能云一见视觉大模型v4.5发布具备七大核心优势

近日，百度智能云一见视觉大模型平台v4.5正式发布，该平台的升级，不仅为工业行业带来了革命性的变革，也为安全生产、餐饮连锁门店管理、工厂车间操作等多个领域提供了高效的视觉智能解决方案。百度智能云一见视觉大模型平台的升级，基于大模型技术的突破，解决了过去小模型时代无法满足的95%视觉类需求。在矿山、餐饮连锁、工厂车间等场景中，通过视频AI分析，实现了安全管理数字化、员工服务规范打分、工序完成情况判断等功能，极大地提高了企业的运营效率和安全性。

美图 AI 视觉大模型 MiracleVision 奇想智能正式上线

["美图 AI 视觉大模型 MiracleVision 正式上线","用户可在 MiracleVision 官网和美图旗下产品中体验","美图公司向行业客户、合作伙伴开放 MiracleVision 的模型能力","MiracleVision 提供文生图、图生图、模型训练等功能","助力多场景工作流，降本增效"]

美图 AI 视觉大模型 MiracleVision 奇想智能将向公众开放

["1 月 2 日，美图公司自研 AI 视觉大模型 MiracleVision 通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。","MiracleVision（奇想智能）是美图公司自研的 AI 视觉大模型，于 2023 年 6 月内测，为美图旗下产品提供 AI 模型能力。","MiracleVision 已升级至 4.0 版本，广泛应用于美图旗下产品和五大行业。","美图 AI 视觉大模型 MiracleVision 是福建省唯一通过备案的视觉领域大模型。","MiracleVision 通过备案后，将继续推动 AI 视觉技术在各领域的应用和发展。"]

AI新闻资讯

淘天推出创新对齐方法，解决视觉大模型中的幻觉问题

AIbase基地

相关AI新闻推荐

百度智能云一见视觉大模型v4.5发布具备七大核心优势

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签

美图 AI 视觉大模型 MiracleVision 奇想智能正式上线

美图 AI 视觉大模型 MiracleVision 奇想智能将向公众开放

AI新闻资讯

淘天推出创新对齐方法，解决视觉大模型中的幻觉问题

AIbase基地

相关AI新闻推荐

百度智能云一见视觉大模型v4.5发布 具备七大核心优势

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题 无需人类或GPT-4打标签

美图 AI 视觉大模型 MiracleVision 奇想智能正式上线

美图 AI 视觉大模型 MiracleVision 奇想智能将向公众开放

百度智能云一见视觉大模型v4.5发布具备七大核心优势

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签