腾讯的混元文生图大模型(混元DiT)最近进行了升级,发布了6G显存版本的模型,使得个人电脑用户也能轻松运行。这个版本与LoRA、ControlNet等插件已经适配至Diffusers库,并且新增了对Kohya图形化界面的支持,降低了开发者训练个性化LoRA模型的门槛。混元DiT模型升级至1.2版本,图片质感和构图都有所提高。

同时,腾讯还开源了混元文生图打标模型“混元Captioner”,这个模型支持中英文双语,并且针对文生图场景进行了优化,能更准确地理解中文语义,输出结构化、完整和准确的图片描述。它还能识别知名人物和地标,并允许开发者补充个性化背景知识。

微信截图_20240705081554.png

此外,混元Captioner模型的开源,使得全球的文生图研究者和数据标注人员能够提升图像描述质量,生成更全面、准确的图片描述,提升模型效果。生成的数据集不仅可以用于训练基于混元DiT的模型,也适用于其他视觉模型的训练。

混元DiT模型的三大更新包括小显存版本的推出、Kohya训练界面的接入以及模型升级至1.2版本,这些都进一步降低了使用门槛并提升了图片质量。混元DiT模型的生成图片质感更佳,但之前对显存的高要求让许多开发者望而却步。现在,混元DiT推出了小显存版本,最低仅需6G显存即可运行,且经过与Hugging Face的合作,小显存版本和相关插件已经适配到Diffusers库中,简化了使用成本。

Kohya是一个开源的轻量化模型微调训练服务,提供了图形化界面,广泛用于扩散模型类文生图模型的训练。用户可以通过Kohya完成模型的全参精调和LoRA训练,无需编写代码。

混元Captioner模型通过构建结构化的图片描述体系,并通过多种来源提升描述的完整性,注入了大量背景知识,使得输出的描述更准确、完整。这些优化使得混元DiT成为最受欢迎的国产DiT开源模型之一,其Github Star数已经超过2.6k。

官网

https://dit.hunyuan.tencent.com/ 

代码

https://github.com/Tencent/HunyuanDiT

模型

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

论文

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf