Das Google-Forschungsteam hat kürzlich eine bahnbrechende Technologie namens Alchemist vorgestellt. Mit dieser Technologie können Benutzer präzise die Materialeigenschaften von Objekten in Bildern bearbeiten, wie Farbe, Glanz und Transparenz, ohne professionelle Bildbearbeitungssoftware oder -kenntnisse zu benötigen.

Der Kern der Alchemist-Technologie ist ein feinabgestimmtes „Text-to-Image“-Generierungsmodell (T2I). Das Forschungsteam erreichte eine präzise Steuerung der Materialparameter durch die Erstellung synthetischer Datensätze und die Modifizierung der Architektur des Stable Diffusion 1.5-Modells.

QQ截图20240729101021.jpg

Konkret erzeugten die Forscher zunächst mithilfe von Computergrafik und physikalisch basierten Rendering-Techniken eine große Anzahl synthetischer Bilder. Diese Bilder enthielten verschiedene 3D-Modelle mit zufällig ausgewählten Materialien, Kamerawinkeln und Lichtverhältnissen. Anschließend veränderten sie einzelne Eigenschaften dieser Bilder und generierten mehrere Versionen mit unterschiedlicher Bearbeitungsintensität.

Durch das Feinabstimmen dieser synthetischen Daten lernte das Modell, bei gegebenem Kontextbild, Anweisungen und Werten für die Bearbeitungsintensität nur die angegebenen Materialeigenschaften zu ändern, während Form und Beleuchtung des Objekts erhalten bleiben.

Die Ergebnisse zeigen, dass die Technologie das Aussehen von Objekten effektiv verändern kann, z. B. die Verstärkung des metallischen Glanzes oder die Anpassung der Transparenz. In Benutzerstudien erzielte diese Methode im Vergleich zu Baseline-Methoden sowohl in Bezug auf fotorealistische Darstellung als auch auf Benutzerpräferenzen deutliche Vorteile.

QQ截图20240729101033.jpg

Die Anwendungsmöglichkeiten dieser Technologie sind vielversprechend. Sie kann Innenarchitekten bei der Vorschau von neu gestrichenen Räumen helfen oder Architekten, Künstlern und Designern bei der schnellen Erstellung von Designentwürfen neuer Produkte unterstützen. Da die Bearbeitungsergebnisse visuell konsistent bleiben, kann die Technologie auch für nachgelagerte 3D-Aufgaben wie die NeRF-Rekonstruktion (Neural Radiance Fields) verwendet werden.

Obwohl die Alchemist-Technologie im Bereich der Materialbearbeitung erhebliche Fortschritte erzielt hat, weist das Forschungsteam auch einige Einschränkungen auf. Beispielsweise gibt es noch Verbesserungspotenzial bei der Verarbeitung versteckter Details in Bildern.

Dennoch sind die Forscher zuversichtlich, was das Potenzial dieser Technologie für die kontrollierte Materialbearbeitung angeht. Durch weitere Forschung und Optimierung wird Alchemist voraussichtlich eine revolutionäre Veränderung im Bereich der Bildbearbeitung bewirken und komplexe Materialbearbeitungsaufgaben einfacher und intuitiver gestalten.

Googles Alchemist-Technologie stellt einen weiteren bedeutenden Durchbruch der künstlichen Intelligenz in der Bildverarbeitung dar. Sie vereinfacht nicht nur komplexe Bildbearbeitungsprozesse, sondern eröffnet auch neue Möglichkeiten für die Kreativwirtschaft und dürfte tiefgreifende Auswirkungen auf die Bereiche Design, Kunst und Virtual Reality haben.

Projektseite: https://prafullsharma.net/alchemist/