Kürzlich hat ein Forschungsteam der Pekinger Akademie für Künstliche Intelligenz ein neues Bildgenerierungsmodell namens OmniGen vorgestellt.

image.png

Ein Allround-Talent für die Bildgenerierung und -bearbeitung

Im Gegensatz zu bisherigen Bildgenerierungswerkzeugen wie Stable Diffusion liegt der größte Vorteil von OmniGen darin, dass es nicht nur auf eine einzelne Aufgabe fokussiert ist, sondern über vielfältige Fähigkeiten verfügt:

Es kann verschiedene Bildgenerierungsaufgaben in einem einheitlichen Framework bearbeiten, darunter die Text-zu-Bild-Generierung und die Bildbearbeitung – ein wahres Allround-Talent.

Das bedeutet, dass Benutzer mit einfachen Eingabeaufforderungen die Bildgenerierung und -bearbeitung steuern können, ohne zusätzliche Plugins wie ControlNet oder IP-Adapter für detaillierte Anpassungen verwenden zu müssen!

Hier zeigt AIbase ein Beispiel mit einer detaillierten Aufforderung für ein Foto mit einer alten Kamera. Das Ergebnis ist detailreich und beeindruckend:

image.png

Eingabeaufforderung: Eine alte Kamera liegt auf dem Boden und schleudert eine wirbelnde Wolke aus Polaroid-Fotos in die Luft. Die Fotos zeigen Landschaften, Wildtiere und Reiseszenen und scheinen der Schwerkraft zu trotzen, indem sie in einem Wirbel aufsteigen. Die Kamera strahlt ein leuchtendes, rauchiges Licht von innen aus, das die magische, surreale Atmosphäre verstärkt. Der dunkle Hintergrund kontrastiert mit den beleuchteten Fotos und der Kamera und schafft eine traumhafte, nostalgische Szene voller lebendiger Farben und dynamischer Bewegung. Verstreute Fotos liegen auf dem Boden und verstärken die Idee einer Explosion eingefangener Erinnerungen.

Hier sind drei weitere offizielle Beispiele: Durch das Hochladen von zwei Bildern und die Eingabe relevanter Aufforderungen können diese in einer Szene kombiniert werden.

image.png

Die Architektur von OmniGen ist sehr vereinfacht. Im Gegensatz zu bisherigen Bildgenerierungsmodellen benötigt es keinen zusätzlichen Text-Encoder oder umständliche Arbeitsabläufe. Bei Eingabe der Bedingungen generiert OmniGen effizient Bilder und verbessert so die Benutzerfreundlichkeit erheblich. Es kombiniert einen variationalen Autoencoder und ein vortrainiertes Transformer-Modell, um Bild- und Texteingaben in einem Modell zu verarbeiten und unnötige Komplexität zu reduzieren.

Um die Bildgenerierung zu verbessern, verwendet OmniGen auch eine Korrekturfluss-Trainingsmethode. Diese Methode steuert die Bildgenerierung präziser, indem sie direkt auf die Zielgeschwindigkeit zurückgreift. Darüber hinaus ermöglicht die schrittweise Trainingsstrategie des Modells, dass es von niedriger zu hoher Auflösung schrittweise die Generierungstechniken erlernt, was zu hervorragenden Ergebnissen führt.

OmniGen liefert bei der Bildgenerierung Ergebnisse auf dem Niveau modernster Modelle

OmniGen wurde mit einem sehr großen und vielfältigen Datensatz trainiert, der verschiedene Bildgenerierungsaufgaben abdeckt. Um die Leistungsfähigkeit des Modells bei der Bearbeitung mehrerer Aufgaben zu gewährleisten, haben die Forscher einen groß angelegten Datensatz namens X2I erstellt, der Daten zu verschiedenen Aufgaben wie Text-zu-Bild und Bildbearbeitung enthält. Dadurch kann OmniGen effektiv aus verschiedenen Aufgaben lernen und Wissen übertragen und neue Generierungsmöglichkeiten aufzeigen.

image.png

In verschiedenen Tests überzeugte OmniGen mit beeindruckenden Ergebnissen. Bei der Text-zu-Bild-Generierung erreichte es Ergebnisse auf dem Niveau der modernsten Modelle auf dem Markt. Im GenEval-Benchmark wurde OmniGen mit nur 100 Millionen Bildern trainiert, während SD3 über 1 Milliarde Bilder verwendete.

Die Bildbearbeitungsfähigkeiten sind ebenfalls ausgezeichnet und ermöglichen eine präzise Steuerung von Quellbild und Bearbeitungsanweisungen. Im EMU-Edit-Testsatz übertraf es bekannte Modelle wie InstructPix2Pix und erreichte sogar das Niveau des aktuell fortschrittlichsten EMU-Edit-Modells.

Bei der objektgesteuerten Generierung zeigte OmniGen aussergewöhnliche Personalisierungsfähigkeiten und eignet sich für verschiedene Bereiche wie Kunst und Werbegestaltung.

Testversion: https://huggingface.co/spaces/Shitao/OmniGen

Forschungsarbeit: https://arxiv.org/html/2409.11340v1