Janus是一个创新的自回归框架,它通过分离视觉编码来实现多模态理解和生成的统一。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus超越了以往的统一模型,并与特定任务的模型性能相匹配或超越。Janus的简单性、高灵活性和有效性使其成为下一代统一多模态模型的强有力候选者。