Janus ist ein innovativer, autoregressiver Framework, der durch die Trennung der visuellen Kodierung ein einheitliches multimodales Verständnis und eine Generierung ermöglicht. Diese Entkopplung mildert nicht nur den Rollenkonflikt des visuellen Kodierers bei Verständnis und Generierung, sondern erhöht auch die Flexibilität des Frameworks. Janus übertrifft bisherige einheitliche Modelle und erreicht oder übertrifft die Leistung taskenspezifischer Modelle. Seine Einfachheit, hohe Flexibilität und Effektivität machen Janus zu einem starken Kandidaten für die nächste Generation einheitlicher multimodaler Modelle.