成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jun 24, 2024

185

南京大学与旷视研究院的研究人员们携手，为视觉大模型带来了一场革命。他们推出的无监督范式——SeVa，成功解决了视觉语言模型的偏好对齐问题，而且整个过程无需人类或GPT-4的参与，大大降低了对齐成本。

这项技术的核心在于自动化构造偏好数据的pipeline，通过对比偏好对齐前后的模型输出，可以明显看出变化。研究人员们发现，即使是微小的图像增广，也可能让VLM对同一问题产生不同的回答。因此，他们将原始图像的回答作为正样本，增广后的图像回答作为负样本，用于训练。

SeVa的实验结果令人瞩目。仅使用8k构造的无监督数据，就显著提升了VLM的指令遵循能力，降低了幻觉，并在多模态等benchmark上取得了明显提升。更重要的是，这种方法简单易行，成本低廉，不需要任何人类或GPT-4的标注。

在多个benchmark上的测试结果表明，SeVa在提升视觉模型的人类偏好对齐方面具有显著优势。特别是在GPT-4评估的MMVet和LLaVA-bench上，SeVa的表现尤为突出。此外，SeVa还能产生更长、更详细的回答，且每次回答的一致性更高，对不同temperature的扰动具有更强的鲁棒性。

这项研究不仅为视觉大模型的对齐问题提供了一种有效的解决方案，也为AI领域的发展开辟了新的可能性。随着SeVa的开源，我们可以预见，未来将有更多的研究者和开发者利用这一范式，推动AI技术的进一步发展。在这个充满无限可能的时代，让我们共同期待AI技术带来的更多惊喜。

项目地址:https://github.com/Kevinz-code/SeVa

字节 Seed 新模型问世：数学竞赛金牌实力爆表，AI 推理迈入新阶段！

字节跳动Seed AI团队发布数学推理模型Seed Prover1.5，在国际数学奥林匹克竞赛中表现优异，获得金牌。该模型基于Scaling Law理论，仅用16.5小时便解决IMO2025前五题，仅失一题，以35分达到金牌标准，成绩与谷歌Gemini相当，相比此前模型效率大幅提升。

2025年前11月中国大模型政企采购超21亿元！百度智能云领跑，中标95个项目夺双料第一

国产大模型正加速从技术演示走向规模化落地。2025年1月至11月，中国主流云厂商在大模型相关项目中累计中标291个，总金额超21亿元，显示AI大模型已成为政企数字化转型的核心基础设施。百度智能云以95个项目、7.1亿元中标金额位居行业首位，展现出其在行业落地、生态整合与商业化方面的领先能力。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO品牌监控分析

GEO排名查询工具

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题 无需人类或GPT-4打标签

AIbase

本文来自AIbase日报

相关AI新闻推荐

解锁机器人的 3D 视觉：原力灵机推出 GeoVLA 框架，颠覆传统 VLA 模型！

纽约州正式签署《RAISE法案》严管先进AI模型

字节 Seed 新模型问世：数学竞赛金牌实力爆表，AI 推理迈入新阶段！

中文数据占比突破80%！国产大模型加速“去英文依赖”，文化理解成AI竞争新高地

腾讯混元推出 ETC 领域首款 AI 智能体 助力用户畅行无阻

2025年前11月中国大模型政企采购超21亿元！百度智能云领跑，中标95个项目夺双料第一

智谱与 MiniMax：大模型创业背后的隐秘真相！

全国首个 “云宇星空” 大模型发布，助力智能城市规划！

50+ Claude 技能库闪现 GitHub，教你的 AI 学会9大领域专业活儿

阿里 Qwen 发布新一代图像编辑模型Qwen-Image-Edit-2511，人物一致性大幅提升

相关AI新闻推荐

解锁机器人的 3D 视觉：原力灵机推出 GeoVLA 框架，颠覆传统 VLA 模型！

纽约州正式签署《RAISE法案》严管先进AI模型

字节 Seed 新模型问世：数学竞赛金牌实力爆表，AI 推理迈入新阶段！

中文数据占比突破80%！国产大模型加速“去英文依赖”，文化理解成AI竞争新高地

腾讯混元推出 ETC 领域首款 AI 智能体 助力用户畅行无阻

2025年前11月中国大模型政企采购超21亿元！百度智能云领跑，中标95个项目夺双料第一

智谱与 MiniMax：大模型创业背后的隐秘真相！

全国首个 “云宇星空” 大模型发布，助力智能城市规划！

50+ Claude 技能库闪现 GitHub，教你的 AI 学会9大领域专业活儿

阿里 Qwen 发布新一代图像编辑模型Qwen-Image-Edit-2511，人物一致性大幅提升

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签

腾讯混元推出 ETC 领域首款 AI 智能体助力用户畅行无阻

腾讯混元推出 ETC 领域首款 AI 智能体助力用户畅行无阻