Kürzlich hat Zhihu AI seine neuesten Werke, CogView3 und die verbesserte Version CogView-3Plus-3B, der Öffentlichkeit zugänglich gemacht und damit neue Impulse im Bereich der Text-zu-Bild-Generierung gesetzt.

Die Vorstellung von CogView3 ist zweifellos ein wichtiger Meilenstein. Als erstes Modell im Bereich der Text-zu-Bild-Generierung, das Relay-Diffusion implementiert, verwendet es eine einzigartige kaskadierte Diffusionsmethode. Dieser innovative Ansatz generiert zunächst ein Bild mit niedriger Auflösung und verwendet dann eine auf Relay basierende Super-Resolution-Technik, um die endgültige Ausgabe zu erstellen. Dies verbessert nicht nur die Qualität der generierten Bilder erheblich, sondern reduziert auch die Trainings- und Inferenzkosten deutlich.

image.png

Am bemerkenswertesten ist die Leistung von CogView3. Nach menschlichen Bewertungen übertrifft CogView3 das derzeit fortschrittlichste Open-Source-Text-zu-Bild-Modell SDXL mit einer Erfolgsquote von 77,0 %. Noch beeindruckender ist, dass es diese Leistung mit etwa der Hälfte der Inferenzzeit von SDXL erreicht hat. Bei Verwendung der abgespeckten Version von CogView3 wird ein vergleichbares Leistungsniveau bei nur einem Zehntel der Inferenzzeit von SDXL beibehalten. Dieser Durchbruch eröffnet neue Möglichkeiten für die effiziente und qualitativ hochwertige Bildgenerierung.

Gleichzeitig hat Zhihu AI CogView-3Plus-3B vorgestellt, ein Bildmodell, das auf dem DiT (Diffusion Transformers)-Framework basiert. Obwohl die konkreten Testergebnisse noch nicht veröffentlicht wurden, sind die Erwartungen der Branche an sein Potenzial hoch. CogView-3Plus-3B wurde auf Basis von CogView3 weiter optimiert und beinhaltet fortschrittliche Technologien wie Zero-SNR-Diffusionsrauschen-Scheduling und einen gemeinsamen Text-Bild-Aufmerksamkeitsmechanismus. Diese Verbesserungen reduzieren nicht nur die Trainings- und Inferenzkosten, sondern erhalten auch die starke Bildgenerierungsfähigkeit.

Erwähnenswert ist, dass CogView-3Plus-3B einen sehr breiten Bereich an Bildauflösungen unterstützt, von 512x512 bis 2048x2048, was die Flexibilität der Anwendungsszenarien erheblich erhöht. Sowohl für den täglichen Gebrauch als auch für professionelle Kreationen findet man die passende Auflösung.

Um Nutzern die bessere Verwendung dieser Modelle zu ermöglichen, bietet Zhihu AI auch praktische Tipps und Tools. Sie empfehlen die Optimierung von Prompts mithilfe von Large Language Models (LLMs), was die Qualität der generierten Bilder deutlich verbessern kann. Gleichzeitig stellt Zhihu AI Beispielskripte zur Verfügung, die die Nutzungsschwelle für Benutzer erheblich senken.

Projekt-Adresse: https://github.com/THUDM/CogView3