Janus ist ein innovatives autoregressives Framework, das die Einschränkungen herkömmlicher Methoden behebt, indem es die visuelle Kodierung in getrennte Pfade aufteilt und gleichzeitig eine einzige, einheitliche Transformer-Architektur zur Verarbeitung verwendet. Diese Entkopplung reduziert nicht nur den Rollenkonflikt des visuellen Kodierers bei Verständnis und Generierung, sondern erhöht auch die Flexibilität des Frameworks. Janus übertrifft die Leistung bisheriger einheitlicher Modelle und erreicht oder übertrifft sogar die Leistung von modellspezifischen Ansätzen. Seine Einfachheit, hohe Flexibilität und Effektivität machen Janus zu einem starken Kandidaten für die nächste Generation einheitlicher multimodaler Modelle.