Auf der Suche nach einem Open-Source-Bildmodell, das Chinesisch versteht? Vergessen Sie englische Prompts! Der chinesische KI-Gigant Zhipu AI hat das neue textbasierte Bildmodell CogView4 veröffentlicht und die chinesische Bildgenerierungstechnologie auf ein neues Level gehoben! Designer, Content-Ersteller und sogar KI-Neulinge können jetzt mit ihrer Muttersprache AI-Bilder erstellen!
Das größte Highlight von CogView4 ist sein ausgezeichnetes chinesisches Verständnis! Sie müssen keine chinesischen Prompts mehr mühsam ins Englische übersetzen. Verwenden Sie einfach natürliche chinesische „Anweisungen“, damit CogView4 Ihre „Bildvorstellung“ versteht und präzise das gewünschte Bild generiert! Besonders bemerkenswert ist, dass es das erste Open-Source-Modell ist, das direkt chinesische Schriftzeichen in Bilder schreiben kann! Ein wahrer „Zauberpinsel“ für chinesische Nutzer, der kreative Ausdruck ermöglicht, ohne dass man sich um „sprachliche Barrieren“ sorgen muss!
Noch besser: CogView4 hebt die Beschränkungen von Bildgröße und Promptlänge auf! Ein riesiges Breitbildposter? Kein Problem! Ein ausführlicher Prompt zur Beschreibung komplexer Szenen? Einfach eingeben! CogView4 meistert alles und erfüllt Ihre kreativen Wünsche, ohne Ihre Fantasie einzuschränken!
CogView4 ist aber nicht nur „hübsch“, sondern auch leistungsstark. Im renommierten DPG-Bench-Benchmark-Test belegte es den ersten Platz in der Gesamtwertung. Das bedeutet, CogView4 ist nicht nur „benutzerfreundlich“, sondern auch „leistungsfähig“ und bietet eine hervorragende Bildqualität, die selbst höchste Ansprüche erfüllt!
Um Entwicklern und Nutzern die Verwendung von CogView4 zu erleichtern, stellt Zhipu AI zusätzlich ControlNet, ComfyUI-Unterstützung und Model-Fine-Tuning-Tools zur Verfügung – die komplette „Waffenkammer“! Sie können CogView4 nicht nur direkt verwenden, sondern es auch an Ihre Bedürfnisse anpassen und ein noch individuelleres und leistungsstärkeres Bildgenerierungsmodell erstellen!
Wie wurde CogView4 so leistungsfähig? Kurz gesagt, durch folgende „technische Upgrades“:
Zweisprachige Fähigkeiten: CogView4 verfügt über einen verbesserten GLM-4-Encoder, der sowohl Chinesisch als auch Englisch versteht! Es wurde mit einer riesigen Menge an zweisprachigen Bild-Text-Daten trainiert und umgeht die bisherigen Probleme von chinesischen Modellen mit Englisch, wodurch ein echter „zweisprachiger Wechsel“ ermöglicht wird!
Intelligente Textverarbeitung: CogView4 verwendet die „dynamische Textlängen“-Technologie. Wie ein „intelligenter Schneider“ passt es sich an die Länge des Prompts an, vermeidet Verschwendung und Redundanz traditioneller Methoden und steigert die Effizienz um 5-30%! Das bedeutet, CogView4 versteht Prompts präziser und generiert schneller!
Flexible Auflösung: CogView4 nutzt „Mixed-Resolution-Training“ und „zweidimensionale Rotations-Positionskodierung“, um Bilder in verschiedenen Größen zu erstellen – von hochauflösenden Bildern bis hin zu kleinen, feinen Bildern. Es verwendet auch ein Flow-Matching-Diffusionsmodell und eine parametrisierte lineare dynamische Rauschplanung für einen flüssigeren und kontrollierbareren Bildgenerierungsprozess!
Verfeinerter Trainingsprozess: Der Trainingsprozess von CogView4 war äußerst präzise. Es durchlief ein „mehrstufiges Training“ und „Alignment mit menschlichen Präferenzen“. Von der Basisauflösung über die allgemeine Auflösung bis hin zum Feintuning mit hochwertigen Daten wurde jeder Schritt optimiert. Es behält die Share-param DiT-Architektur bei und verwendet für verschiedene Modalitäten eine unabhängige adaptive Layer-Normalisierung, um das Modell robuster und effizienter zu machen!
Projekt-Adresse: https://github.com/THUDM/CogView4