上海交大博士发现大bug！AI画家竟然画不出茶杯中的冰可乐！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 7, 2024

322

在人工智能领域，AI画家的能力一直在不断突破和进步。然而，即使是最先进的AI图像生成模型，也可能在某些看似简单的任务上遇到难题。最近，上海交通大学博士研究生赵峻图及其团队在研究中发现，AI在生成“茶杯中的冰可乐”这一场景时，表现出了意料之外的困难。

这一现象引发了学术界的关注，被称为文本图像不对齐问题（text-image misalignment）。在2023年10月，当AI图像生成模型刚刚兴起时，赵峻图及其团队进行了尝试，发现AI画家在构建这一场景时，往往会画出一个装满冰可乐的透明玻璃杯，而非茶杯。即使在2024年7月使用最先进的模型进行尝试，结果仍然不尽人意。

为了深入探索这一问题，上海交通大学王德泉教授的课题组在即将发表的论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中，将这一问题归类为包含隐藏变量的不对齐问题（Latent Concept Misalignment，简称 LC-Mis）。他们设计了一个基于大语言模型(LLMs)的系统，利用LLMs蕴含的人类思维来帮助快速收集存在类似问题的概念对。

研究团队提出了一种名为Mixture of Concept Experts （MoCE）的方法，将顺序作画的规律融入到 diffusion models 的多步采样过程中，成功地将消失的茶杯找了回来。

它将整个采样过程分为两个阶段:第一阶段只提供容易被忽略的概念，第二阶段再使用完整的文本提示。通过这种方法，MoCE在生成图像时能够更精确地控制文本和图像之间的对齐。

MoCE方法显著降低了第5级 LC-Mis 概念对的占比，甚至在一定程度上超越了需要大量数据标注成本的 Dall・E3（2023年10月版本）。

此外，研究团队还发现，现有的自动化评价指标在面对这类新问题时存在明显缺陷。例如，一些评价指标对茶杯中的冰可乐给予了较低的评分，而对透明玻璃杯中的冰可乐却给予了较高的评分。这表明，即使是评价AI表现的工具本身，也可能存在偏见和局限性。

研究者们计划在未来的工作中探索更复杂的LC-Mis场景，并开发可学习的搜索算法来减少迭代次数。他们还计划扩大数据集中使用的模型类型、模型版本和采样器类型，并持续迭代数据集收集算法，以增强和扩大数据集。

这项研究不仅为理解AI在图像生成中的局限性提供了新的视角，也为改进AI的图像生成能力提供了新的思路和方法。随着技术的不断进步，我们期待AI在理解和再现人类创造力方面取得更大的突破。

项目地址：https://lcmis.github.io/

论文：https://arxiv.org/pdf/2408.00230

“赛博骡子”来了！MuleRun 开启个人 AI 助手新模式：低成本扛起云端重活

MuleRun（骡子快跑）是一款主打“自进化”与“零门槛”的个人AI助手，以云端数字劳动力形式提供稳定、廉价且高耐力的服务。其最大特点是无需复杂本地部署，打开浏览器即可使用。通过长期监控与即时任务两种工作模式，覆盖用户全场景需求。

突然爆火的“赛博骡子”：MuleRun能终结“养虾时代”吗？

近日，AI产品“MuleRun”（骡子快跑）发布后迅速走红，被戏称为“赛博骡子”，并衍生出“养虾不如养骡子”的热梗。相比之前需要复杂部署的“龙虾”热潮，这款产品实现了零门槛使用，让非技术用户也能轻松拥有24小时工作的“数字员工”，标志着AI应用从技术门槛高向大众化、便捷化的快速转变。

AI日报：PixVerse推出开发者专属CLI；钉钉发布“悟空”AI原生平台；苹果发布 LiTo 大模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、终结繁琐操作！公司对新技术的开放态度仍引发市场对其未来智能化转型的期待。

阿里开源Fun-CineForge ：首个电影级多模态配音大模型及大规模数据集问世

阿里巴巴通义实验室与中国科学技术大学联合开源Fun-CineForge项目，针对影视配音中口型同步、音色迁移和情感表达等难题，提供端到端生产流水线和大模型解决方案，旨在解决传统AI配音口型不匹配、情感生硬及难以适应复杂场景的问题。

“龙虾”爆火后的安全警示:国安部发布 OpenClaw 安全养殖手册

2026年，开源AI工具OpenClaw（昵称“龙虾”）因强大的自主执行能力成为现象级产品。随着“养龙虾”热潮兴起，其原生安全风险引发国家关注。国家安全部发布《“龙虾”安全养殖手册》，提醒用户理性辨别、规范使用。OpenClaw的核心优势在于从方案生成到自主执行，区别于仅提供建议的传统大模型。

谷歌 GDC 2026 坦承：Genie 3 生成的游戏世界几分钟内即崩溃

在2026年GDC大会上，Google DeepMind展示了生成式AI模型Genie3，旨在自动化生成互动内容。团队冷静指出，当前AI生成的游戏世界连贯性严重不足，运行数分钟后即出现大规模逻辑错误与画面崩溃。现场观察显示，其游戏体验仅在前60秒保持流畅，随后环境一致性迅速瓦解。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO全景分析平台

GEO品牌监控分析

GEO排名查询工具

GEO推广链接检测

GEO排名优化系统

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

上海交大博士发现大bug！AI画家竟然画不出茶杯中的冰可乐！

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

开源界再迎王炸！Mistral Small 4 正式发布：三位一体，不仅更强还更省？

“赛博骡子”来了！MuleRun 开启个人 AI 助手新模式：低成本扛起云端重活

突然爆火的“赛博骡子”：MuleRun能终结“养虾时代”吗？

​养龙虾不如养赛博骡子？全球首个自进化 AI “MuleRun”正式发布

百度“秒哒”上线应用生成Skill：开启零门槛全球应用开发新时代

AI日报：PixVerse推出开发者专属CLI；钉钉发布“悟空”AI原生平台；苹果发布 LiTo 大模型

澄清了！博纳影业回应：博乐AI暂未接入 OpenClaw 部署

阿里​开源Fun-CineForge ：首个电影级多模态配音大模型及大规模数据集问世

“龙虾”爆火后的安全警示:国安部发布 OpenClaw 安全养殖手册

​谷歌 GDC 2026 坦承：Genie 3 生成的游戏世界几分钟内即崩溃

相关AI新闻推荐

开源界再迎王炸！Mistral Small 4 正式发布：三位一体，不仅更强还更省？

“赛博骡子”来了！MuleRun 开启个人 AI 助手新模式：低成本扛起云端重活

突然爆火的“赛博骡子”：MuleRun能终结“养虾时代”吗？

​养龙虾不如养赛博骡子？全球首个自进化 AI “MuleRun”正式发布

百度“秒哒”上线应用生成Skill：开启零门槛全球应用开发新时代

AI日报：PixVerse推出开发者专属CLI；钉钉发布“悟空”AI原生平台；苹果发布 LiTo 大模型

澄清了！博纳影业回应：博乐AI暂未接入 OpenClaw 部署

阿里​开源Fun-CineForge ：首个电影级多模态配音大模型及大规模数据集问世

“龙虾”爆火后的安全警示:国安部发布 OpenClaw 安全养殖手册

​谷歌 GDC 2026 坦承：Genie 3 生成的游戏世界几分钟内即崩溃

养龙虾不如养赛博骡子？全球首个自进化 AI “MuleRun”正式发布

阿里开源Fun-CineForge ：首个电影级多模态配音大模型及大规模数据集问世

谷歌 GDC 2026 坦承：Genie 3 生成的游戏世界几分钟内即崩溃

养龙虾不如养赛博骡子？全球首个自进化 AI “MuleRun”正式发布

阿里开源Fun-CineForge ：首个电影级多模态配音大模型及大规模数据集问世

谷歌 GDC 2026 坦承：Genie 3 生成的游戏世界几分钟内即崩溃