Janus é uma estrutura autoregressiva inovadora que realiza a compreensão e geração multimodal por meio da separação da codificação visual. Essa separação não apenas alivia o conflito de papéis do codificador visual na compreensão e geração, mas também aumenta a flexibilidade da estrutura. O Janus supera os modelos unificados anteriores e se iguala ou supera o desempenho de modelos para tarefas específicas. A simplicidade, alta flexibilidade e eficácia do Janus o tornam um forte candidato para a próxima geração de modelos multimodais unificados.