Janus est un cadre autoregressif innovant qui réalise une compréhension et une génération multimodales unifiées en séparant l'encodage visuel. Ce découplage atténue non seulement les conflits de rôles de l'encodeur visuel dans la compréhension et la génération, mais améliore également la flexibilité du cadre. Janus surpasse les modèles unifiés précédents et atteint ou dépasse les performances des modèles spécifiques à une tâche. Sa simplicité, sa grande flexibilité et son efficacité font de Janus un candidat de choix pour les modèles multimodaux unifiés de nouvelle génération.