人工智能创业公司 Hugging Face 最近推出了一款名为 IDEFIX 的开源多模态 AI 模型。IDEFIX 可以处理图像和文本输入,并生成连贯的文本输出。IDEFIX 基于视觉语言模型 Flamingo 构建,使用了包括维基百科、公共多模态数据集和 LAION 在内的各种开放数据集进行了训练。相比专有模型,IDEFIX 在各种图像文本理解评估中的表现非常优异。这标志着多模态 AI 开源模型的一个重要进步。