Das Zhihu-Technologieteam hat heute aufregende Neuigkeiten veröffentlicht: Ihr neu entwickeltes Text-zu-Bild-Modell CogView3 und seine verbesserte Version CogView3-Plus-3B wurden offiziell Open Source veröffentlicht und sind in der „Zhihu Qingyan“-App verfügbar. Die Einführung dieser beiden Modelle markiert einen neuen Meilenstein in der KI-gestützten Kunstproduktion.

CogView3, ein Text-zu-Bild-Modell basierend auf kaskadierender Diffusion, zeichnet sich durch seinen raffinierten Generierungsprozess aus. Zuerst erzeugt das Modell ein 512x512 Pixel großes Bild niedriger Auflösung. Anschließend wird es durch einen iterativen Diffusionsprozess auf 1024x1024 Pixel hochskaliert und schließlich in einem weiteren Schritt auf 2048x2048 Pixel verfeinert, um ein hochauflösendes Bild zu erstellen. Dieser schrittweise Prozess ähnelt der Arbeit eines digitalen Malers, der sein Werk schrittweise auf der Leinwand verbessert, und bietet dem Benutzer ein außergewöhnliches visuelles Erlebnis.

image.png

Offiziellen Bewertungen zufolge ist die Leistung von CogView3 beeindruckend: Es übertrifft das derzeit führende Open-Source-Text-zu-Bild-Modell SDXL um 77 %. Besonders hervorzuheben ist die Inferenzgeschwindigkeit von CogView3, die nur ein Zehntel der von SDXL beträgt. Dies unterstreicht die herausragenden Leistungen des Zhihu-Teams in der Modelloptimierung.

image.png

CogView3-Plus hebt diese Technologie auf ein neues Niveau. Diese Version integriert das fortschrittliche DiT-Framework, nutzt die Zero-SNR-Diffusionsrauschplanung und führt innovativ einen Text-Bild-gemeinsamen Aufmerksamkeitsmechanismus ein. Diese Verbesserungen steigern nicht nur die Gesamtleistung des Modells, sondern senken auch die Trainings- und Inferenzkosten erheblich und erzielen ein perfektes Gleichgewicht zwischen Effizienz und Effektivität. Der von CogView3-Plus verwendete 16-dimensionale VAE-Latentraum eröffnet neue Möglichkeiten für die zukünftige Entwicklung der Bildgenerierungstechnologie.

image.png

Für Entwickler und Forscher, die diese Spitzentechnologie erkunden möchten, hat das Zhihu-Technologieteam die Quellcode-Repositories von CogView3 und CogView3-Plus-3B veröffentlicht. Diese Maßnahme wird zweifellos die schnelle Entwicklung des gesamten Bereichs der KI-Bildgenerierung vorantreiben und eine solide technologische Grundlage für weitere innovative Anwendungen schaffen.

Mit der Einführung der CogView3-Modellreihe eröffnen sich weitreichende Anwendungsmöglichkeiten für die Text-zu-Bild-Technologie. Von der individuellen Kreation bis hin zum kommerziellen Design, von der pädagogischen Unterstützung bis hin zur Unterhaltungsindustrie – diese Technologie hat das Potenzial, revolutionäre Veränderungen herbeizuführen. Es ist absehbar, dass KI-gestützte Kreation in naher Zukunft zum Standard wird und es mehr Menschen ermöglicht, ihre künstlerischen Vorstellungen mühelos umzusetzen.

Open-Source-Repository-Adresse:

https://top.aibase.com/tool/cogview3

Plus Open-Source-Modell-Repository:

https://top.aibase.com/tool/cogview3-plus-3b