Im heutigen digitalen Zeitalter entwickelt sich die Bildgenerierungstechnologie mit erstaunlicher Geschwindigkeit. Kürzlich hat ein Forschungsteam der National University of Singapore einen völlig neuen Rahmen namens OminiControl vorgestellt, der darauf abzielt, die Flexibilität und Effizienz der Bildgenerierung zu verbessern. Dieser Rahmen nutzt durch die Kombination von Bildbedingungen bereits trainierte Diffusions-Transformer-Modelle (Diffusion Transformer, kurz DiT) und ermöglicht eine bisher unerreichte Kontrollfähigkeit.

Einfach ausgedrückt: Mit OminiControl können Sie einfach ein Ausgangsmaterialbild bereitstellen und dessen Thema in das generierte Bild integrieren. Beispielsweise hat der Autor das linke Ausgangsmaterialbild hochgeladen und den Prompt „Chipmensch neben einem Arzttisch in einem Arztzimmer, auf dem Stethoskop liegt“ eingegeben. Das Ergebnis war eher durchschnittlich, wie folgt:

image.png

Der Kern von OminiControl liegt in seinem „Mechanismus zur Parameterwiederverwendung“. Dieser Mechanismus ermöglicht es dem DiT-Modell, Bildbedingungen mit deutlich weniger zusätzlichen Parametern effektiv zu verarbeiten. Das bedeutet, dass OminiControl im Vergleich zu bestehenden Methoden nur 0,1 % bis 0,1 % zusätzliche Parameter benötigt, um leistungsstarke Funktionen zu realisieren. Darüber hinaus kann es verschiedene Aufgaben mit Bildbedingungen einheitlich verarbeiten, wie z. B. themenbasierte Generierung und die Anwendung von räumlich ausgerichteten Bedingungen, z. B. Kanten oder Tiefenkarten. Diese Flexibilität ist besonders für themenorientierte Generierungsaufgaben geeignet.

image.png

Das Forschungsteam betont besonders, dass OminiControl diese Fähigkeiten durch das Training der generierten Bilder erreicht, was für themenorientierte Generierungen besonders wichtig ist. Ausgiebige Evaluierungen zeigen, dass OminiControl bei themenorientierten Generierungs- und räumlich ausgerichteten Bedingungsgenerierungsaufgaben bestehende UNet-Modelle und angepasste DiT-Modelle deutlich übertrifft. Dieses Forschungsergebnis eröffnet neue Möglichkeiten im kreativen Bereich.

image.png

Um weitere Forschung zu unterstützen, hat das Team auch einen Trainingsdatensatz namens Subjects200K veröffentlicht, der über 200.000 Bilder mit konsistenter Identität enthält und eine effiziente Daten-Synthese-Pipeline bereitstellt. Dieser Datensatz bietet Forschern wertvolle Ressourcen, um themenkonsistente Generierungsaufgaben weiter zu erforschen.

Die Einführung von OminiControl verbessert nicht nur die Effizienz und das Ergebnis der Bildgenerierung, sondern bietet auch mehr Möglichkeiten für künstlerisches Schaffen. Mit dem Fortschritt der Technologie wird die zukünftige Bildgenerierung intelligenter und individueller.

Online-Demo: https://huggingface.co/spaces/Yuanshi/OminiControl

GitHub: https://github.com/Yuanshi9815/OminiControl

Forschungsarbeit: https://arxiv.org/html/2411.15098v2

Wichtigste Punkte:

🌟 OminiControl verbessert durch einen Mechanismus zur Parameterwiederverwendung die Kontrollfähigkeit und Effizienz der Bildgenerierung.

🎨 Der Rahmen kann verschiedene Aufgaben mit Bildbedingungen gleichzeitig verarbeiten, z. B. Kanten und Tiefenkarten, und passt sich an unterschiedliche kreative Anforderungen an.

📸 Das Team hat den Datensatz Subjects200K mit über 200.000 Bildern veröffentlicht, um weitere Forschung und Exploration zu unterstützen.