ChinaZ.com le 21 juin 2024 : Le grand modèle d'image à partir de texte HunYuan de Tencent (modèle HunYuan DiT) annonce la publication en open source de son code d'entraînement complet, incluant les plugins LoRA et ControlNet.
LoRA est une technique d'ajustement fin des grands modèles de langage permettant d'entraîner des modèles dotés de caractéristiques spécifiques à partir d'un petit ensemble de données, sans modifier le modèle original ni augmenter sa taille.
ControlNet est un algorithme de génération contrôlée permettant aux utilisateurs de mieux contrôler la génération d'images en ajoutant des conditions supplémentaires. Tencent HunYuan propose trois modèles ControlNet au lancement, capables d'extraire et d'appliquer des conditions telles que les contours, la profondeur et la posture humaine des images.
De plus, HunYuan DiT a publié une bibliothèque d'accélération exclusive pour améliorer l'efficacité de l'inférence et simplifier son utilisation. HunYuan DiT est largement utilisé dans la création de contenu, la synthèse de produits, la génération d'images pour les jeux vidéo, etc., notamment par la plateforme Tencent Ads Miaosi et plusieurs médias pour la génération de contenu.
Site officiel :
https://dit.hunyuan.tencent.com/
Code :
https://github.com/Tencent/HunyuanDiT
Modèle :
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
Document de recherche :
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
Processus de création de données :
https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md