テンセントのHunYuanDiT(混元文生图大模型)は最近、コミュニティと共同で、tile(高解像度拡大)、inpainting(画像修復と拡張)、lineart(線画生成)の3つの新しい制御可能なプラグインControlNetを発表し、ControlNetマトリックスをさらに拡張しました。これらのプラグインの追加により、HunYuanDiTモデルは、美術、クリエイティブ、建築、写真、美容、eコマースなど、80%のケースとシナリオをカバーできるようになり、世界中の企業や個人開発者、クリエイターに、より正確な画像生成とより自由度の高い創作能力を提供します。
Tileプラグインは、画像に情報を追加し、超高解像度の拡大を実現し、4Kから8Kの解像度にも対応できます。画像の細部までこだわりたいシナリオに最適です。Inpaintingプラグインは、クリエイターのニーズに合わせて、画像の塗りつぶしや斑点を補完し、背景の変更、人物の変更などの効果を実現し、大規模な画像の再描画に対応します。Lineartプラグインは、さまざまな線種を使用して、人物、アニメ、建築物の画像を作成し、建築パースの生成や手稿の色付けに適しています。
さらに、テンセントHunYuanDiTは、以前からcanny(エッジ)、depth(深度)、pose(人体姿勢)などの条件付きControlNetモデルを発表しており、開発者は推論を実行でき、ControlNetのトレーニング方法もオープンソース化されているため、開発者やクリエイターはカスタムControlNetモデルをトレーニングできます。
5月に全面的なアップグレードとオープンソース化を発表して以来、HunYuanDiTは業界初の中国語ネイティブのDiTアーキテクチャによる文生図のオープンソースモデルとして、開発者エコシステムの構築を継続し、専用のアクセラレーションライブラリをリリースして推論効率を向上させ、画像生成時間を短縮し、推論コードもさらにオープンソース化しました。7月には、HunYuanDiTがバージョン1.2にアップグレードされ、メモリ使用量の少ないバージョンがオープンソース化され、わずか6GBのVRAMで実行できるようになり、個人用コンピューターでのローカル展開を行う開発者にとってより使いやすくなりました。
現在、HunYuanDiTはGithubで3.1kを超えるStarを獲得しており、最も人気のある中国製のDiTオープンソースモデルとなっています。
公式サイト
https://dit.hunyuan.tencent.com/
コード
https://github.com/Tencent/HunyuanDiT
モデル
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf