在人工智能驱动的图像生成与理解领域,尽管取得了快速进展,但仍存在显著挑战,阻碍了一个无缝、统一的方法的发展。

目前,专注于图像理解的模型往往在生成高质量图像方面表现不佳,反之亦然。这种任务分开的架构不仅增加了复杂性,还限制了效率,使得处理同时需要理解与生成的任务变得繁琐。此外,许多现有模型在有效执行任何功能时,都过于依赖于架构修改或预训练组件,这导致了性能权衡与整合挑战。

为了解决这些问题,DeepSeek AI 推出了 JanusFlow,这是一个强大的 AI 框架,旨在统一图像理解与生成。JanusFlow 通过将图像理解和生成集成到一个统一的架构中,来解决前面提到的低效问题。这一新颖的框架采用简约设计,结合了自回归语言模型与纠正流(rectified flow)—— 一种最先进的生成建模方法。

image.png

通过消除对独立的 LLM 和生成组件的需求,JanusFlow 实现了更为紧密的功能集成,同时降低了架构复杂性。它引入了双重编码器 - 解码器结构,解耦了理解和生成任务,并通过对齐表示来确保统一训练方案中的性能一致性。

技术细节方面,JanusFlow 轻量高效地整合了纠正流与大型语言模型。该架构包括用于理解和生成任务的独立视觉编码器。在训练过程中,这些编码器相互对齐,以提高语义一致性,使系统在图像生成和视觉理解任务中表现出色。

这种编码器的解耦防止了任务之间的干扰,从而增强了每个模块的能力。模型还采用了无分类器引导(CFG)来控制生成图像与文本条件之间的对齐,从而提高图像质量。与传统的使用扩散模型作为外部工具的统一系统相比,JanusFlow 提供了更简单、更直接的生成过程,局限性也更少。该架构的有效性体现在其能够在多个基准测试中匹敌甚至超过许多特定任务模型的表现。

JanusFlow 的重要性在于其效率和多功能性,填补了多模态模型开发中的一个关键空白。通过消除对独立生成和理解模块的需求,JanusFlow 使研究人员和开发者能够利用单一框架处理多种任务,显著降低了复杂性和资源使用。

基准结果表明,JanusFlow 在 MMBench、SeedBench 和 GQA 上的得分分别为74.9、70.5和60.3,表现优于许多现有的统一模型。在图像生成方面,JanusFlow 超越了 SDv1.5和 SDXL,MJHQ FID-30k 得分为9.51,GenEval 得分为0.63。这些指标表明它在生成高质量图像和处理复杂多模态任务方面的卓越能力,且仅需1.3B 参数。

image.png

结论是,JanusFlow 在开发能够同时进行图像理解与生成的统一 AI 模型方面迈出了重要一步。它的简约方法 —— 专注于将自回归能力与纠正流整合 —— 不仅提升了性能,还简化了模型架构,使其更高效、可访问。

通过解耦视觉编码器并在训练过程中对齐表示,JanusFlow 成功架起了图像理解与生成之间的桥梁。随着 AI 研究不断突破模型能力的边界,JanusFlow 代表着朝着创造更具通用性和多功能性的多模态 AI 系统迈出的重要里程碑。

模型:https://huggingface.co/deepseek-ai/JanusFlow-1.3B

论文:https://arxiv.org/abs/2411.07975

划重点:

🌟 JanusFlow 是一个统一框架,将图像理解与生成集成于一个模型中,提高了效率和可操作性。  

📈 该框架在多个基准测试中表现优越,尤其是在生成高质量图像方面,超越了多个现有模型。  

🔧 JanusFlow 通过解耦视觉编码器,避免了任务间的干扰,并简化了整体架构。