Im Bereich der Bildgenerierung verändern mehrschichtige Bildgenerierungstechniken die Art und Weise, wie Benutzer mit generativen Modellen interagieren. Sie ermöglichen es Benutzern, bestimmte Bildebenen zu isolieren, auszuwählen und zu bearbeiten. Kürzlich haben Microsoft-Forscher eine neue Technik namens „Anonymous Region Transformer“ (ART) vorgestellt, die direkt veränderbare mehrschichtige transparente Bilder basierend auf globalen Textprompts und anonymen Regionslayouts generieren kann.

QQ_1741139755445.png

ARTs Design basiert auf der „Schema-Theorie“. Durch die Verwendung anonymer Regionslayouts kann das generative Modell selbst entscheiden, welche visuellen Informationen mit welchen Textinformationen übereinstimmen. Dieser Ansatz steht im Gegensatz zu herkömmlichen semantischen Layouts. Traditionelle semantische Layouts erfordern in der Regel eindeutige Zuordnungen, während ARTs anonyme Regionslayouts mehr Flexibilität bieten.

Es ist erwähnenswert, dass ART einen schichtweisen Regions-Cropping-Mechanismus einführt, der nur die visuellen Informationen auswählt, die mit jeder anonymen Region zusammenhängen. Dies reduziert die Kosten für die Aufmerksamkeitsberechnung erheblich. Diese Methode beschleunigt nicht nur die Generierung (über 12-mal schneller als Methoden mit vollständiger Aufmerksamkeit), sondern reduziert auch effektiv Konflikte zwischen den Schichten und ermöglicht die Verarbeitung von über 50 verschiedenen Ebenen bei der Bildgenerierung.

Darüber hinaus präsentiert ART einen hochwertigen Autoencoder für mehrschichtige transparente Bilder, der die transparente Codierung und Decodierung veränderbarer mehrschichtiger Bilder auf kombinierte Weise unterstützt. Dieses innovative Design bietet neue Möglichkeiten für die präzise Steuerung und skalierbare Schichtgenerierung und fördert die interaktive Inhaltserstellung weiter.

Projekt: https://art-msra.github.io/

Highlights:

🌟 ART generiert direkt mehrschichtige transparente Bilder basierend auf globalen Textprompts und anonymen Regionslayouts.

⚡️ Ein schichtweiser Regions-Cropping-Mechanismus erhöht die Effizienz der Bildgenerierung erheblich – über 12-mal schneller als herkömmliche Methoden.

💡 Ein neuer, hochwertiger Autoencoder ermöglicht die präzise Steuerung und Generierung mehrschichtiger transparenter Bilder und fördert die interaktive Inhaltserstellung.