微软研究院推AI框架E5-V:用文本对的单模态训练简化多模态学习降低成本

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jul 23, 2024

294

最近，微软研究院与北京航空航天大学的研究团队联合推出了一个名为 E5-V 的全新框架，旨在为多模态嵌入提供一种更高效的解决方案。随着人工智能的不断进步，多模态大语言模型（MLLMs）已经成为研究的热点，它们能够同时理解文本和视觉信息，从而更好地处理复杂的数据关系。但在多模态学习中，有效表示多种信息仍然是一个重大挑战。

项目入口:https://github.com/kongds/E5-V/

以往的模型如 CLIP，虽然通过对比学习将视觉与语言表示对齐，但多数模型仍然依赖于图像和文本对的独立编码器，这导致输入整合的效果不佳。此外，这些模型通常需要大量的多模态训练数据，成本高昂，且在复杂的语言理解和视觉 - 语言任务中表现不足。

E5-V 框架的创新之处在于，它采用了单模态训练的方式，仅使用文本对进行训练，这样不仅大幅降低了训练成本，也避免了需要收集多模态数据的麻烦。在训练过程中，E5-V 框架通过将多模态输入转化为单词来消除模态差距。这一方法让模型能够更准确地执行诸如复合图像检索等复杂任务。

根据研究团队的实验结果，E5-V 在多个任务上的表现都非常出色，比如文本 - 图像检索、复合图像检索等。它在零样本图像检索任务中表现优异，超越了现有的顶尖模型 CLIP ViT-L，在 Flickr30K 和 COCO 数据集上的 Recall@1分别提高了12.2% 和15.0%。

此外，在复合图像检索任务中，E5-V 也超越了目前的最先进方法 iSEARLE-XL，在 CIRR 数据集上提高了8.50% 和10.07%。

正在上传...

E5-V 框架代表了多模态学习的重大进步。通过利用单模态训练和基于提示的表示方法，E5-V 解决了传统方法的局限性，为多模态嵌入提供了更高效、更有效的解决方案。

划重点:
🌟 E5-V 框架通过单模态训练简化了多模态学习，降低了成本。
📈 在多个任务中，E5-V 展示了超越现有顶尖模型的优异性能。
🔑 该框架为未来多模态模型的开发设立了新标准，具有广泛的应用潜力。

Grok 暂停大部分用户的图像生成功能

马斯克旗下AI工具Grok因生成性别化与暴力图像引发争议，现已暂停大部分用户的图像生成功能。此举是在面临全球监管压力及英国可能对X平台实施禁令的背景下作出的。此前，该功能曾被用于制作不雅女性图像。目前仅付费用户保留使用权限。

AI日报：千问Qwen3-VL双子星开源；腾讯内测“上头蛙”AI互动故事小程序；小鹏祭出“物理世界大模型”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、通义千问再下一城：Qwen3-VL双子星开源，多模态检索迎来新范式阿里通义实验室开源了Qwen3-VL-Embedding与Qwen3-VL-Reranker模型，标志着多模态信息检索进入语义对齐的新纪元。马斯克确认GrokCode将进入密集更新期，这预示着AI编程工具市场将迎来更激烈的竞争。