Das neueste Open-Source-Text-zu-Bild-Modell von Zhihu AI, CogView4, ist offiziell erschienen. CogView4 verfügt nicht nur über 600 Millionen Parameter, sondern unterstützt auch vollständig die chinesische Eingabe und die Generierung von Bildern aus chinesischem Text. Es wird als „erstes Open-Source-Modell bezeichnet, das chinesische Schriftzeichen in Bildern generieren kann“.

QQ_1741067026688.png

Ein Kernmerkmal von CogView4 ist die Unterstützung von Eingabeaufforderungen in Chinesisch und Englisch. Es versteht und befolgt besonders komplexe chinesische Anweisungen hervorragend und ist somit ein Segen für chinesische Content-Ersteller. Als erstes Open-Source-Modell, das chinesische Schriftzeichen in Bildern generieren kann, füllt es eine große Lücke im Open-Source-Bereich. Darüber hinaus kann das Modell Bilder in beliebigen Abmessungen generieren und Eingabeaufforderungen beliebiger Länge verarbeiten, was seine hohe Flexibilität unterstreicht.

Die Zweisprachigkeit von CogView4 ist auf ein umfassendes Upgrade der technischen Architektur zurückzuführen. Der Text-Encoder wurde auf GLM-4 aktualisiert und unterstützt die Eingabe in Chinesisch und Englisch. Damit wird die bisherige Einschränkung von Open-Source-Modellen auf Englisch überwunden. Das Modell wurde Berichten zufolge mit chinesisch-englischen Bild-Text-Paaren trainiert, um die Generierungsqualität im chinesischen Kontext zu gewährleisten.

Bei der Textverarbeitung verzichtet CogView4 auf das traditionelle Design mit fester Länge und verwendet stattdessen ein dynamisches Textlängen-Schema. Bei einer durchschnittlichen Beschreibungstextlänge von 200-300 Token reduziert sich im Vergleich zum traditionellen Schema mit festen 512 Token die Redundanz um etwa 50%, und die Trainingseffizienz steigt um 5-30%. Diese Innovation optimiert nicht nur die Rechenressourcen, sondern ermöglicht es dem Modell auch, unterschiedlich lange Eingabeaufforderungen effizienter zu verarbeiten.

CogView4 kann Bilder mit beliebiger Auflösung generieren, was auf mehreren technologischen Durchbrüchen basiert. Das Modell verwendet ein Training mit gemischten Auflösungen, kombiniert mit zweidimensionaler Rotations-Positionscodierung und interpolierter Positionsdarstellung, um den Anforderungen verschiedener Größen gerecht zu werden. Darüber hinaus verbessert es die Qualität und Vielfalt der generierten Bilder durch ein Flow-Matching-Diffusionsmodell und eine parametrisierte lineare dynamische Rauschplanung.

QQ_1741067051506.png

Der Trainingsprozess von CogView4 umfasst mehrere Phasen: Beginnend mit dem Training der Basisauflösung, über die Anpassung an allgemeine Auflösungen und das Feintuning mit hochwertigen Daten bis hin zur Optimierung der Ausgabe durch die Ausrichtung auf menschliche Präferenzen. Dieser Prozess behält die Share-param DiT-Architektur bei und führt gleichzeitig für verschiedene Modalitäten unabhängige adaptive Layer-Normalisierungen ein, um die Stabilität und Konsistenz des Modells in verschiedenen Aufgaben zu gewährleisten.

Projekt: https://github.com/THUDM/CogView4