Das Aufkommen von Modellen wie Stable Diffusion markiert einen bedeutenden Fortschritt im Bereich der Bildgenerierung. Der grundlegende Unterschied zu autoregressiven Sprachmodellen hinderte jedoch die Entwicklung einheitlicher Sprach-Bild-Modelle. Um dieses Problem zu lösen, stellten Forscher Meissonic vor, das die Technik des nicht-autoregressiven Maskierten Bildmodellierens (MIM) von Text zu Bild auf ein Niveau hebt, das mit modernsten Diffusionsmodellen wie SDXL vergleichbar ist.
Der Kern von Meissonic liegt in einer Reihe von Architekturinnovationen, fortschrittlichen Positionscodierungsstrategien und optimierten Samplingbedingungen. Diese Verbesserungen steigern die Leistung und Effizienz von MIM deutlich. Darüber hinaus nutzt Meissonic hochwertige Trainingsdaten, integriert mikrokonditionierte menschliche Präferenzwerte und verwendet Feature-Kompressions-Layer, um die Bildtreue und -auflösung weiter zu verbessern.
Im Gegensatz zu großen Diffusionsmodellen wie SDXL und DeepFloyd-XL verfügt Meissonic nur über 1 Milliarde Parameter, kann aber dennoch qualitativ hochwertige Bilder mit einer Auflösung von 1024 × 1024 generieren und läuft auf einer Consumer-GPU mit nur 8 GB VRAM, ohne zusätzliche Modelloptimierungen. Darüber hinaus kann Meissonic problemlos Bilder mit einfarbigen Hintergründen erstellen, was bei Diffusionsmodellen normalerweise ein Feintuning des Modells oder eine Anpassung der Rauschverschiebung erfordert.
Um ein effizientes Training zu ermöglichen, wurde der Trainingsprozess von Meissonic in vier sorgfältig konzipierte Phasen unterteilt:
Erste Phase: Verständnis grundlegender Konzepte aus riesigen Datenmengen. Meissonic nutzt den gefilterten LAION-2B-Datensatz und trainiert mit einer Auflösung von 256 × 256, um grundlegende Konzepte zu erlernen.
Zweite Phase: Ausrichtung von Text und Bild mithilfe langer Prompts. Die Trainingsauflösung wird auf 512 × 512 erhöht, und es werden hochwertige synthetische Bild-Text-Paare und interne Datensätze verwendet, um das Verständnis des Modells für lange beschreibende Prompts zu verbessern.
Dritte Phase: Beherrschung der Merkmalskompression für die Generierung höherer Auflösungen. Durch die Einführung von Feature-Kompressions-Layern kann Meissonic nahtlos von 512 × 512 auf 1024 × 1024 hochskalieren und wird mit ausgewählten hochwertigen hochauflösenden Bild-Text-Paaren trainiert.
Vierte Phase: Optimierung der Erzeugung ästhetisch hochwertiger Bilder in hoher Auflösung. In dieser Phase wird das Modell mit einer geringeren Lernrate feinabgestimmt, und es werden menschliche Präferenzwerte als Mikrobedingungen hinzugefügt, um die Leistung des Modells bei der Generierung hochwertiger Bilder zu verbessern.
Durch die Bewertung anhand einer Reihe von quantitativen und qualitativen Metriken, darunter HPS, MPS, GenEval-Benchmarks und GPT4o-Bewertungen, zeigt Meissonic eine überragende Leistung und Effizienz. Im Vergleich zu DALL-E 2 und SDXL erzielt Meissonic sowohl bei der menschlichen Leistung als auch bei der Textausrichtung wettbewerbsfähige Ergebnisse und zeigt gleichzeitig seine Effizienz.
Darüber hinaus zeigt Meissonic hervorragende Leistungen bei der Zero-Shot-Bild-zu-Bild-Bearbeitung. Im EMU-Edit-Datensatz erzielt Meissonic in sieben verschiedenen Operationen – Hintergrundänderung, Änderung des Bildinhalts, Stiländerung, Objektentfernung, Objekt hinzufügen, lokale Änderungen und Farb-/Texturänderungen – Spitzenergebnisse. Dies alles geschieht ohne Training oder Feintuning auf spezifischen Bildbearbeitungsdaten oder -anweisungen.
Projekt-Adresse: https://github.com/viiika/Meissonic
Paper-Adresse: https://arxiv.org/pdf/2410.08261