MIDI ist eine innovative Technologie zur Generierung von 3D-Szenen aus Bildern. Sie nutzt ein Multi-Instanz-Diffusionsmodell, um direkt aus einem einzelnen Bild mehrere 3D-Instanzen mit präzisen räumlichen Beziehungen zu generieren. Der Kern der Technologie liegt in ihrem Multi-Instanz-Aufmerksamkeitsmechanismus, der die Interaktion und die räumliche Konsistenz zwischen Objekten effektiv erfassen kann, ohne komplexe mehrstufige Verarbeitung. MIDI zeichnet sich im Bereich der Bild-zu-Szene-Generierung aus und eignet sich für synthetische Daten, Daten aus realen Szenen und stilisierte Szenenbilder, die von Text-zu-Bild-Diffusionsmodellen generiert werden. Die Hauptvorteile sind Effizienz, hohe Genauigkeit und eine starke Generalisierungsfähigkeit.