ChinaZ.com (站长之家) – 21. Juni 2024: Das Tencent HunYuan DiT Modell, ein großes Sprachmodell für die Bilderzeugung, hat seinen vollständigen Trainingscode als Open Source veröffentlicht. Dies beinhaltet LoRA und ControlNet Plugins.

LoRA (Low-Rank Adaptation) ist eine Technik zum Feintuning großer Sprachmodelle. Sie ermöglicht es, mit minimalen Daten ein Modell mit spezifischen Eigenschaften zu trainieren, ohne das ursprüngliche Modell zu verändern oder dessen Größe zu erhöhen.

微信截图_20240621114949.png

ControlNet ist ein Algorithmus zur kontrollierten Bilderzeugung. Er erlaubt es Nutzern, die Bilderzeugung durch Hinzufügen zusätzlicher Bedingungen besser zu steuern. Tencent HunYuan bietet drei ControlNet Modelle an, die Bedingungen wie Kanten, Tiefeninformationen und menschliche Posen aus Bildern extrahieren und anwenden können.

Zusätzlich hat HunYuan DiT eine eigene beschleunigte Bibliothek veröffentlicht, um die Inferenz-Effizienz zu steigern und die Nutzung zu vereinfachen. HunYuan DiT wird bereits in verschiedenen Bereichen eingesetzt, darunter Materialerstellung, Produktzusammensetzung und Spielegrafik. Es wird beispielsweise von der Tencent-Werbeplattform Miaosi und mehreren Medienunternehmen zur Inhaltsgenerierung verwendet.

Offizielle Webseite:

https://dit.hunyuan.tencent.com/

Code:

https://github.com/Tencent/HunyuanDiT

Modell:

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Fachartikel:

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

Datenerstellungsprozess:

https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md