ChinaZ.com (站长之家) – 21. Juni 2024: Das Tencent HunYuan DiT Modell, ein großes Sprachmodell für die Bilderzeugung, hat seinen vollständigen Trainingscode als Open Source veröffentlicht. Dies beinhaltet LoRA und ControlNet Plugins.
LoRA (Low-Rank Adaptation) ist eine Technik zum Feintuning großer Sprachmodelle. Sie ermöglicht es, mit minimalen Daten ein Modell mit spezifischen Eigenschaften zu trainieren, ohne das ursprüngliche Modell zu verändern oder dessen Größe zu erhöhen.
ControlNet ist ein Algorithmus zur kontrollierten Bilderzeugung. Er erlaubt es Nutzern, die Bilderzeugung durch Hinzufügen zusätzlicher Bedingungen besser zu steuern. Tencent HunYuan bietet drei ControlNet Modelle an, die Bedingungen wie Kanten, Tiefeninformationen und menschliche Posen aus Bildern extrahieren und anwenden können.
Zusätzlich hat HunYuan DiT eine eigene beschleunigte Bibliothek veröffentlicht, um die Inferenz-Effizienz zu steigern und die Nutzung zu vereinfachen. HunYuan DiT wird bereits in verschiedenen Bereichen eingesetzt, darunter Materialerstellung, Produktzusammensetzung und Spielegrafik. Es wird beispielsweise von der Tencent-Werbeplattform Miaosi und mehreren Medienunternehmen zur Inhaltsgenerierung verwendet.
Offizielle Webseite:
https://dit.hunyuan.tencent.com/
Code:
https://github.com/Tencent/HunyuanDiT
Modell:
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
Fachartikel:
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
Datenerstellungsprozess:
https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md