Le modèle de génération d'images à partir de texte HunYuanDiT de Tencent a récemment publié, en collaboration avec la communauté, trois nouveaux plugins de contrôle ControlNet : tile (agrandissement haute définition), inpainting (restauration et extension d'images) et lineart (génération d'images à partir de dessins au trait). Ces ajouts étendent considérablement les capacités de ControlNet de HunYuanDiT. Grâce à ces plugins, le modèle HunYuanDiT couvre un éventail plus large d'applications, incluant les arts, la création, l'architecture, la photographie, la beauté et le e-commerce, soit 80 % des cas d'utilisation. Il offre ainsi aux entreprises et aux développeurs/créateurs du monde entier une capacité de génération d'images plus précise et une plus grande liberté de création.

Le plugin Tile permet d'ajouter des informations à l'image, réalisant un agrandissement haute définition, atteignant même une résolution de 4K à 8K. Il est idéal pour les applications exigeant un niveau de détail extrême. Le plugin Inpainting permet de remplir les parties effacées ou endommagées d'une image selon les besoins du créateur, permettant ainsi de changer l'arrière-plan, de modifier le sujet principal, etc., et de gérer la repasse de grandes zones d'images. Le plugin Lineart utilise différents types de lignes pour créer des images de personnes, de dessins animés et d'architecture, adapté à la génération de rendus architecturaux et à la coloration de croquis.

微信截图_20240815135451.png

Par ailleurs, Tencent HunYuanDiT avait déjà publié des modèles ControlNet conditionnels tels que canny (contours), depth (profondeur) et pose (posture humaine), permettant aux développeurs d'effectuer des inférences. Le programme d'entraînement de ControlNet a également été rendu open source, permettant aux développeurs et aux créateurs d'entraîner leurs propres modèles ControlNet personnalisés.

Depuis son annonce de mise à niveau complète et son ouverture au public en mai, HunYuanDiT, premier modèle de génération d'images à partir de texte open source à architecture DiT nativement chinoise, continue de développer son écosystème de développeurs. Il a publié une bibliothèque d'accélération exclusive, améliorant l'efficacité de l'inférence et réduisant le temps de génération d'images, et a également rendu le code d'inférence open source. En juillet, HunYuanDiT a été mis à niveau vers la version 1.2, avec une version optimisée pour les petites mémoires, nécessitant seulement 6 Go de VRAM, ce qui le rend plus accessible aux développeurs utilisant des ordinateurs personnels.

Actuellement, HunYuanDiT compte plus de 3,1 k étoiles sur Github, devenant ainsi le modèle DiT open source chinois le plus populaire.

Site officiel

https://dit.hunyuan.tencent.com/

Code

https://github.com/Tencent/HunyuanDiT

Modèle

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Article scientifique

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf