Am 4. März 2025 gab die Beijing Zhipu Huazhang Technology Co., Ltd. die Veröffentlichung von CogView4 bekannt, dem ersten Open-Source-Text-zu-Bild-Modell, das die Generierung chinesischer Schriftzeichen unterstützt. Das Modell belegt in der DPG-Bench-Benchmark-Bewertung den ersten Platz und ist damit das State-of-the-Art (SOTA) unter den Open-Source-Text-zu-Bild-Modellen. Es folgt der Apache2.0-Lizenz und ist das erste Bildgenerierungsmodell, das diese Lizenz verwendet.
CogView4 verfügt über eine starke Fähigkeit zur Ausrichtung komplexer Semantik und zur Befolgung von Anweisungen. Es unterstützt die Eingabe von beliebig langen Texten in Chinesisch und Englisch und kann Bilder in beliebiger Auflösung generieren. Es kann nicht nur qualitativ hochwertige Bilder erzeugen, sondern auch chinesische Schriftzeichen auf natürliche Weise in das Bild integrieren, wodurch es den kreativen Anforderungen in Bereichen wie Werbung und Kurzvideos gerecht wird. Technisch gesehen verwendet CogView4 den GLM-4-Encoder mit zweisprachigen Fähigkeiten und erreicht durch zweisprachiges (Chinesisch-Englisch) Text-Bild-Training die Fähigkeit zur Eingabe zweisprachiger Prompts.
Das Modell unterstützt die Eingabe von Prompts beliebiger Länge und kann Bilder in beliebiger Auflösung generieren, wodurch die kreative Freiheit und die Trainingseffizienz erheblich gesteigert werden. CogView4 verwendet eine zweidimensionale Rotationspositionscodierung (2D RoPE), um Bildpositionsinformationen zu modellieren, und unterstützt durch interpolierte Positionscodierung die Generierung von Bildern mit unterschiedlichen Auflösungen. Darüber hinaus verwendet das Modell ein Flow-Matching-Schema für die Diffusionsgenerierung und kombiniert dies mit einer parametrisierten linearen dynamischen Rauschplanung, um den Anforderungen an das Signal-Rausch-Verhältnis verschiedener Auflösungen zu entsprechen.
In Bezug auf die Architektur folgt CogView4 der Share-param DiT-Architektur der vorherigen Generation und verwendet für Text- und Bildmodalitäten jeweils separate adaptive LayerNorm-Schichten, um eine effiziente Anpassung zwischen den Modalitäten zu erreichen. Das Modell verwendet eine mehrstufige Trainingsstrategie, einschließlich Training mit Basisauflösung, Training mit variabler Auflösung, Feintuning mit hochwertigen Daten und Training zur Ausrichtung auf menschliche Präferenzen, um sicherzustellen, dass die generierten Bilder ästhetisch ansprechend sind und den menschlichen Vorlieben entsprechen.
CogView4 durchbricht auch die Beschränkung der traditionellen festen Token-Länge und erlaubt eine höhere Token-Obergrenze, wodurch die Redundanz von Text-Tokens während des Trainings deutlich reduziert wird. Bei einer durchschnittlichen Länge der Trainings-Captions von 200-300 Tokens reduziert CogView4 im Vergleich zu traditionellen Verfahren mit festen 512 Tokens die Token-Redundanz um etwa 50 % und erzielt in der iterativen Trainingsphase eine Effizienzsteigerung von 5-30 %.
Darüber hinaus unterstützt CogView4 die Apache2.0-Lizenz. In Zukunft werden sukzessive Support für ControlNet, ComfyUI und andere Ökosysteme hinzugefügt. Ein vollständiges Feintuning-Toolkit wird ebenfalls in Kürze veröffentlicht.
Open-Source-Repository-Adresse:
https://github.com/THUDM/CogView4
Modell-Repository:
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B