DesignEdit ist ein einheitliches Framework, das verschiedene räumlich wahrnehmende Bildbearbeitungsfunktionen integriert. Es erreicht dies, indem es räumlich wahrnehmende Bildbearbeitungsaufgaben in zwei Unteraufgaben zerlegt: die Zerlegung und Fusion mehrschichtiger latenter Repräsentationen. Zuerst wird die latente Repräsentation des Quellbildes in mehrere Schichten unterteilt, darunter mehrere Zielschichten und eine unvollständige Hintergrundschicht, die einer zuverlässigen Reparatur bedarf. Um zusätzliche Feinabstimmungen zu vermeiden, untersuchen wir die Reparaturfähigkeit innerhalb des Self-Attention-Mechanismus weiter und führen ein Key-Masking-Self-Attention-Schema ein, das Kontextinformationen aus der Umgebung in den maskierten Bereich übertragen und gleichzeitig den Einfluss auf Bereiche außerhalb des maskierten Bereichs reduzieren kann. Zweitens schlagen wir eine anweisungsbasierte Methode zur latenten Fusion vor, um mehrschichtige latente Repräsentationen auf dem latenten Raum der Leinwand zu platzieren. Wir führen außerdem einen Mechanismus zur Unterdrückung von Artefakten im latenten Raum ein, um die Reparaturqualität zu verbessern. Aufgrund der inhärenten Modularität dieser mehrschichtigen Repräsentationen können wir präzise Bildbearbeitungen durchführen, und unsere Methode erzielt bei mehreren Bearbeitungsaufgaben hervorragende Ergebnisse und übertrifft modernste räumliche Bearbeitungsmethoden.