在人工智能领域,AI画家的能力一直在不断突破和进步。然而,即使是最先进的AI图像生成模型,也可能在某些看似简单的任务上遇到难题。最近,上海交通大学博士研究生赵峻图及其团队在研究中发现,AI在生成“茶杯中的冰可乐”这一场景时,表现出了意料之外的困难。

这一现象引发了学术界的关注,被称为文本图像不对齐问题(text-image misalignment)。在2023年10月,当AI图像生成模型刚刚兴起时,赵峻图及其团队进行了尝试,发现AI画家在构建这一场景时,往往会画出一个装满冰可乐的透明玻璃杯,而非茶杯。即使在2024年7月使用最先进的模型进行尝试,结果仍然不尽人意。

image.png

为了深入探索这一问题,上海交通大学王德泉教授的课题组在即将发表的论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中,将这一问题归类为包含隐藏变量的不对齐问题(Latent Concept Misalignment,简称 LC-Mis)。他们设计了一个基于大语言模型(LLMs)的系统,利用LLMs蕴含的人类思维来帮助快速收集存在类似问题的概念对。

研究团队提出了一种名为Mixture of Concept Experts (MoCE) 的方法,将顺序作画的规律融入到 diffusion models 的多步采样过程中,成功地将消失的茶杯找了回来。

它将整个采样过程分为两个阶段:第一阶段只提供容易被忽略的概念,第二阶段再使用完整的文本提示。通过这种方法,MoCE在生成图像时能够更精确地控制文本和图像之间的对齐。

MoCE方法显著降低了第5级 LC-Mis 概念对的占比,甚至在一定程度上超越了需要大量数据标注成本的 Dall・E3(2023年10月版本)。

此外,研究团队还发现,现有的自动化评价指标在面对这类新问题时存在明显缺陷。例如,一些评价指标对茶杯中的冰可乐给予了较低的评分,而对透明玻璃杯中的冰可乐却给予了较高的评分。这表明,即使是评价AI表现的工具本身,也可能存在偏见和局限性。

研究者们计划在未来的工作中探索更复杂的LC-Mis场景,并开发可学习的搜索算法来减少迭代次数。他们还计划扩大数据集中使用的模型类型、模型版本和采样器类型,并持续迭代数据集收集算法,以增强和扩大数据集。

这项研究不仅为理解AI在图像生成中的局限性提供了新的视角,也为改进AI的图像生成能力提供了新的思路和方法。随着技术的不断进步,我们期待AI在理解和再现人类创造力方面取得更大的突破。

项目地址:https://lcmis.github.io/

论文:https://arxiv.org/pdf/2408.00230