Das Tencent HunYuan DiT (HunyuanDiT) Text-to-Image-Großmodell hat kürzlich in Zusammenarbeit mit der Community drei neue, steuerbare ControlNet-Plugins veröffentlicht: tile (HD-Vergrößerung), inpainting (Bildreparatur und -erweiterung) und lineart (Zeichnungserzeugung). Dies erweitert die ControlNet-Matrix von HunYuan DiT erheblich. Durch diese Plugins deckt das HunYuan DiT Modell ein breiteres Anwendungsspektrum ab, darunter Kunst, Kreativität, Architektur, Fotografie, Kosmetik und E-Commerce – etwa 80% aller Anwendungsfälle und Szenarien. Globale Unternehmen, Entwickler und Kreative erhalten so präzisere Bilderzeugung und größere Gestaltungsfreiheit.

Das Tile-Plugin erweitert Bildinformationen und ermöglicht eine hochauflösende Vergrößerung, sogar bis zu 4K bis 8K Auflösung. Dies ist ideal für Anwendungen mit höchsten Ansprüchen an die Bilddetails. Das Inpainting-Plugin füllt nach den Vorgaben des Nutzers übermalte oder beschädigte Bereiche in Bildern aus. Es ermöglicht beispielsweise den Hintergrundwechsel oder die Veränderung von Personen, und kann große Bildbereiche neu zeichnen. Das Lineart-Plugin nutzt verschiedene Stricharten zur Erstellung von Bildern von Menschen, Anime und Gebäuden und eignet sich besonders für die Generierung von Architekturvisualisierungen und das Kolorieren von Handzeichnungen.

微信截图_20240815135451.png

Zuvor hatte Tencent HunYuan DiT bereits ControlNet-Modelle mit den Bedingungen Canny (Kanten), Depth (Tiefe) und Pose (Körperhaltung) veröffentlicht, die Entwicklern das Inferencing ermöglichen. Das Trainingsschema für ControlNet wurde ebenfalls Open Source bereitgestellt, sodass Entwickler und Kreative eigene ControlNet-Modelle trainieren können.

Seit der Ankündigung des umfassenden Upgrades und der Open-Source-Veröffentlichung im Mai hat sich HunYuan DiT, als erstes chinesisches natives DiT-Architektur-Text-to-Image-Open-Source-Modell, kontinuierlich um den Aufbau eines Entwickler-Ökosystems bemüht. Es wurde eine spezielle Beschleunigerbibliothek veröffentlicht, die die Inferenz-Effizienz steigert und die Bildgenerierungszeit verkürzt. Der Inferenz-Code wurde ebenfalls Open Source bereitgestellt. Im Juli wurde HunYuan DiT auf Version 1.2 aktualisiert und eine Version mit geringem Speicherbedarf veröffentlicht, die nur 6 GB Grafikspeicher benötigt und somit für Entwickler mit lokalen PCs benutzerfreundlicher ist.

Derzeit hat HunYuan DiT auf Github über 3.1k Stars und ist damit das beliebteste chinesische Open-Source-DiT-Modell.

Website

https://dit.hunyuan.tencent.com/

Code

https://github.com/Tencent/HunyuanDiT

Modell

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Paper

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf