Das Tencent HunYuan Text-to-Image-Modell (HunYuan DiT) wurde kürzlich aktualisiert und bietet nun eine Version mit 6 GB VRAM, die auch auf PCs mit geringer Ausstattung problemlos läuft. Diese Version ist mit Plugins wie LoRA und ControlNet kompatibel und wurde in die Diffusers-Bibliothek integriert. Zusätzlich wurde die Unterstützung für die Kohya-Grafikoberfläche hinzugefügt, was die Entwicklung individueller LoRA-Modelle vereinfacht. HunYuan DiT wurde auf Version 1.2 aktualisiert, mit verbesserter Bildqualität und Komposition.

Gleichzeitig hat Tencent das HunYuan Captioner-Modell, ein Open-Source-Modell zur Bildbeschreibung, veröffentlicht. Dieses Modell unterstützt sowohl Chinesisch als auch Englisch und wurde für Text-zu-Bild-Szenarien optimiert. Es versteht chinesische Semantik präziser und liefert strukturierte, vollständige und genaue Bildbeschreibungen. Es erkennt auch bekannte Persönlichkeiten und Wahrzeichen und erlaubt Entwicklern, individuelles Hintergrundwissen hinzuzufügen.

微信截图_20240705081554.png

Die Veröffentlichung von HunYuan Captioner ermöglicht es Forschern und Datenbeschriftern weltweit, die Qualität von Bildbeschreibungen zu verbessern und umfassendere, genauere Beschreibungen zu generieren, was die Modellleistung steigert. Die generierten Datensätze können sowohl zum Trainieren von auf HunYuan DiT basierenden Modellen als auch für andere visuelle Modelle verwendet werden.

Die drei wichtigsten Updates von HunYuan DiT sind die Einführung einer Version mit geringem VRAM-Bedarf, die Integration der Kohya-Trainingsoberfläche und das Upgrade auf Version 1.2. Dies senkt die Einstiegshürde und verbessert die Bildqualität. HunYuan DiT erzeugt Bilder mit höherer Qualität, doch der hohe VRAM-Bedarf hat viele Entwickler abgeschreckt. Mit der neuen Version mit geringem VRAM-Bedarf (mindestens 6 GB) und der Zusammenarbeit mit Hugging Face, die die Integration in die Diffusers-Bibliothek ermöglicht, werden die Nutzungskosten reduziert.

Kohya ist ein Open-Source-Dienst zum leichten Feintuning von Modellen mit einer grafischen Benutzeroberfläche, der häufig für das Training von diffusionsbasierten Text-zu-Bild-Modellen verwendet wird. Benutzer können mit Kohya das Modell vollständig feinabstimmen und LoRA-Training durchführen, ohne Code schreiben zu müssen.

HunYuan Captioner erstellt strukturierte Bildbeschreibungen und verbessert deren Vollständigkeit durch verschiedene Quellen. Durch das Einbringen umfangreichen Hintergrundwissens werden die Ausgaben genauer und vollständiger. Diese Optimierungen machen HunYuan DiT zu einem der beliebtesten Open-Source-DiT-Modelle aus China, mit über 2.6k GitHub-Stars.

Offizielle Webseite

https://dit.hunyuan.tencent.com/

Code

https://github.com/Tencent/HunyuanDiT

Modell

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Forschungsarbeit

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf