Kuaishou hat heute einen großen Schritt getan und sein eigenes Bildgenerierungsmodell – „可图 Kolors“ – Open Source veröffentlicht. Dies ist kein gewöhnliches Modell. Es wurde mit Milliarden von Text-Bild-Paaren trainiert, verwendet ein generisches Sprachmodell (GLM) als Textencoder, unterstützt chinesische und englische Prompts und kann Kontexte mit bis zu 256 Token verarbeiten.
可图 Kolors – Ein Überblick über die Funktionen:
Chinesisch-Englische Unterstützung: Durch die Verwendung eines generischen Sprachmodells (GLM) als Textencoder versteht und verwendet das Modell nicht nur Englisch perfekt, sondern auch chinesische Prompts.
Verarbeitung langer Texte: Unterstützung von Kontexten mit einer Länge von bis zu 256 Token ermöglicht es den Nutzern, ihre Ideen detailliert zu beschreiben, egal ob es sich um komplexe Szenen oder umfangreiche Geschichten handelt.
Training mit riesigen Datenmengen: Das Training mit Milliarden von Text-Bild-Paaren verleiht dem Modell eine umfangreiche Wissensbasis und ermöglicht die Generierung vielfältiger und präziser Bilder.
Optimierung für chinesische kulturelle Elemente: Das Modell wurde speziell für chinesische kulturelle Elemente optimiert, sodass die generierten Bilder dem chinesischen Kulturerbe besser entsprechen und die lokalen Bedürfnisse erfüllen.
Generierung chinesischer Schriftzeichen: „可图 Kolors“ versteht nicht nur Chinesisch, sondern kann auch chinesische Schriftzeichen in die generierten Bilder einbetten und so die Ausdruckskraft der Bilder erhöhen.
Tests von AIBase haben ergeben, dass die Einbindung chinesischer Schriftzeichen in Bilder derzeit besser funktioniert und im Wesentlichen korrekt ausgegeben wird. Bei englischen Texten hingegen kommt es eher zu fehlenden oder falschen Zeichen.
Wie man sieht, funktioniert die Generierung der „chinesischen Katze“ einwandfrei. Wenn man jedoch „AIbase“ verwendet, treten fehlende Zeichen auf. Die chinesische Textausgabe ist bemerkenswert gut, aber es sollte beachtet werden, dass zu lange Texte zu Fehlern führen können.
Dieses Modell ist mehr als nur ein einfaches Werkzeug; es basiert auf der starken technischen Unterstützung von Kuaishou. Das Training mit riesigen Datenmengen und die spezielle Optimierung für chinesische kulturelle Elemente verleihen den generierten Bildern einen starken chinesischen Charakter. Dies ist nicht nur ein technischer Durchbruch, sondern auch ein kulturelles Erbe.
Der Open-Source-Plan umfasst auch CN (ControlNet)-Unterstützung, LoRa (Low-Rank Adaptation), IPA (Image Prompt Adaptation) und direkte ComfyUI-Unterstützung, um Ihren kreativen Prozess flüssiger und individueller zu gestalten.
Technische Details:
„可图 Kolors“ basiert auf der SDXL-Modellarchitektur und integriert die ChatGLM256-Technologie, um das Verständnis von zwei Sprachen und die Generierung von Text zu verbessern.
Es ist zu beachten, dass für die Ausführung dieses Modells ein großer Grafikspeicher von ca. 19 GB erforderlich ist, was möglicherweise Anforderungen an die Hardware stellt.
Die Open-Source-Veröffentlichung von „可图 Kolors“ durch Kuaishou ist nicht nur ein Beitrag zur technischen Community, sondern auch ein mutiger Schritt zur Förderung der kreativen Freiheit. Dies zeigt die Entschlossenheit und Stärke von Kuaishou im Bereich der KI-Technologie und lässt uns die unbegrenzten Möglichkeiten der KI in der künstlerischen Gestaltung erkennen.
可图 Webseite: https://top.aibase.com/tool/kuaishouketudamoxingkolors
Projektseite: https://top.aibase.com/tool/kolors