MIMO ist ein universelles Modell für die Videokomposition, das die Interaktion beliebiger Personen mit Objekten in komplexen Bewegungen nachbilden kann. Es kann auf Basis einfacher Benutzereingaben (z. B. Referenzbilder, Pose-Sequenzen, Szenenvideos oder -bilder) Charaktervideos mit steuerbaren Eigenschaften (wie Charakter, Aktion und Szene) synthetisieren. MIMO erreicht dies, indem es 2D-Videos in einen kompakten räumlichen Code kodiert und diesen in drei räumliche Komponenten zerlegt (Hauptfigur, Hintergrundszene und schwebende Okklusionen). Diese Methode ermöglicht eine flexible Steuerung, aussagekräftige räumliche Bewegungen und eine 3D-wahrnehmende Synthese, die für interaktive reale Szenarien geeignet ist.