CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 6, 2024

347

生成式AI发展迅猛，但如何全面评估其性能一直是个难题。各种模型层出不穷，效果也是越来越惊艳。但是，问题来了，怎么评价这些文生图模型的效果呢?

传统的评价方法，要么是靠人眼看，主观性太强;要么是用一些简单的指标，比如CLIPScore，但这些指标往往无法捕捉到复杂文本提示中的细节，比如对象之间的关系、逻辑推理等等。这就导致很多文生图模型的评测结果不准确，甚至会出现一些搞笑的情况，明明生成的图片驴唇不对马嘴，得分却还挺高。

为了解决这个问题，卡耐基梅隆大学和Meta的研究人员最近联手推出了一套新的文生图评测方案——VQAScore。这个方案的核心思想，就是用视觉问答（VQA）模型来给文生图模型打分。

具体来说，VQAScore会先把文本提示转换成一个简单的问题，比如“这张图里有没有一只猫在追一只老鼠?”，然后把生成的图片和这个问题一起丢给VQA模型。VQA模型会根据图片内容判断问题的答案是“是”还是“否”，VQAScore就根据VQA模型判断“是”的概率来给文生图模型打分。

这个方法看起来简单，但效果却出奇的好。研究人员用VQAScore在8个不同的文生图评测基准上进行了测试，结果发现，VQAScore的准确性和可靠性都远超传统的评测方法，甚至可以与那些使用GPT-4V等超大模型的方案相媲美。

更厉害的是，VQAScore不仅可以用来评测文生图，还可以用来评测文生视频和文生3D模型。这是因为VQAScore的核心是VQA模型，而VQA模型本身就可以处理各种类型的视觉内容。

为了进一步推动文生图领域的进步，研究人员还创建了一个新的文生图评测基准——GenAI-Bench。这个基准包含了1600个复杂的文本提示，涵盖了各种视觉语言推理能力，比如比较、计数、逻辑推理等等。研究人员还收集了超过15000个人工标注，用来评估不同文生图模型的效果。

总的来说，VQAScore和GenAI-Bench的出现，为文生图领域带来了新的活力。VQAScore提供了一种更加准确可靠的评测方法，可以帮助研究人员更好地评估不同模型的优缺点。GenAI-Bench则提供了一个更加全面和具有挑战性的评测基准，可以推动文生图模型朝着更加智能和人性化的方向发展。

当然，VQAScore也有一些局限性。目前VQAScore主要依赖于开源的VQA模型，而这些模型的性能还不如GPT-4V等闭源模型。未来，随着VQA模型的不断进步，VQAScore的性能也会进一步提升。

项目地址：https://linzhiqiu.github.io/papers/vqascore/

阿里云发布开源工具Meoo CLI:支持本地AI项目一键上线部署

阿里云于6月11日发布开源命令行工具Meoo CLI，旨在降低开发者构建AI原生应用的门槛。该工具深度适配Claude Code、Codex、Cursor等主流本地AI编程环境，通过无缝调用云端基础设施，实现数据库接入、用户登录、文件存储及项目部署的一体化配置。开发者只需简单指令，即可将AI生成的本地项目直接部署上线，简化了从代码构建到发布的全流程。

保护青少年：加拿大拟立法禁止 16 岁以下未成年人使用社交媒体

加拿大政府于6月10日向议会提交数字安全法案，拟全面禁止16岁以下未成年人使用社交媒体，仅对符合严格安全标准的平台保留豁免。此举旨在为年轻人营造更安全的网络环境，并引入巨额罚款机制，标志着加拿大在保护儿童网络安全方面采取严厉措施。

AI日报：小米开源AI编程助手MiMo Code；京东MALL首批人形机器人上岗；谷歌发布DiffusionGemma

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、小米开源终端AI编程助手MiMoCode，内置免费顶级多模态模型小米开源了终端AI编程助手MiMoCodeV0.1.0，该项目基于OpenCode二次开发，采用MIT协议开源。8、坚决打击造谣：理想汽车起诉利用AI批量抹黑的传媒公司理想汽车坚决打击利用AI技术进行恶意造谣的行为，已向公安机关报案并采取法律手段维护自身权益，同时呼吁社会共同抵制此类行为。

万象有声上线「全自动 AI 多播有声书创作」，万字成本不到 8 元

公测两个月后，万象有声正式推出“全自动AI多播有声书创作”系统，将智能拆章、角色分析、画本生成、多角色配音及后期合成等AI能力打包组合，通过任务编排引擎实现全流程无人化生产。该系统由原懒人听书核心团队打造，旨在提升有声书制作效率，此前已在内部演示中获版权方认可。

三成央企核心系统首选!OceanBase发布“央国企AI一体化数据解决方案”

2026年6月11日，OceanBase在济南“2026信息技术应用创新发展大会”上，其《省政务云一体化数据库平台解决方案》入围“2025年信息技术应用创新解决方案”，并被工信部网安中心评为“典型解决方案”，获国家层面权威认可。同时，OceanBase正式发布“央国企AI一体化数据解决方案”，进一步强化其在政务数字化领域的技术实力。

苹果开发者生态升级：Xcode 27 原生集成 Gemini，AI 编程阵营再添猛将

苹果在Xcode 27 Beta版本中引入谷歌Gemini的原生集成，成为继OpenAI Codex和Anthropic Claude Agent后的第三个内置AI编程智能体。这一更新使开发者拥有更多元化的智能编程选择，显著提升了开发效率与交互体验，标志着苹果开发生态迎来AI赋能深度变革。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO 品牌全景分析

GEO 品牌得分检测

GEO 排名查询

GEO 排名监测

AI 对话问题挖掘

GEO 推广链接检测

GEO排名优化系统源码

GEO 排名优化服务

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型API中转站检测

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

拥抱AI办公新范式：塔塔咨询为 5 万员工配备Claude

打通AI应用“最后一公里”：阿里云秒悟Meoo CLI正式开源

一键部署上线：阿里云发布秒悟 Meoo CLI 开源工具

阿里云发布开源工具Meoo CLI:支持本地AI项目一键上线部署

保护青少年：加拿大拟立法禁止 16 岁以下未成年人使用社交媒体

AI日报：小米开源AI编程助手MiMo Code；京东MALL首批人形机器人上岗；谷歌发布DiffusionGemma

万象有声上线「全自动 AI 多播有声书创作」，万字成本不到 8 元

三成央企核心系统首选!OceanBase发布“央国企AI一体化数据解决方案”

苹果开发者生态升级：Xcode 27 原生集成 Gemini，AI 编程阵营再添猛将

再向多国推进：谷歌 Chrome 浏览器版 Gemini 依然无缘欧盟

相关AI新闻推荐

拥抱AI办公新范式：塔塔咨询为 5 万员工配备Claude

打通AI应用“最后一公里”：阿里云秒悟Meoo CLI正式开源

一键部署上线：阿里云发布秒悟 Meoo CLI 开源工具

阿里云发布开源工具Meoo CLI:支持本地AI项目一键上线部署

保护青少年：加拿大拟立法禁止 16 岁以下未成年人使用社交媒体

AI日报：小米开源AI编程助手MiMo Code；京东MALL首批人形机器人上岗；谷歌发布DiffusionGemma

万象有声上线「全自动 AI 多播有声书创作」，万字成本不到 8 元

三成央企核心系统首选!OceanBase发布“央国企AI一体化数据解决方案”

苹果开发者生态升级：Xcode 27 原生集成 Gemini，AI 编程阵营再添猛将

再向多国推进：谷歌 Chrome 浏览器版 Gemini 依然无缘欧盟