チャイナZ(ChinaZ.com)6月21日ニュース:テンセントの混元文生図大規模言語モデル(混元DiTモデル)のトレーニングコードが全面的にオープンソース化されました。LoRAプラグインとControlNetプラグインを含みます。
LoRAは、大規模言語モデルを微調整するための技術です。元のモデルを変更したり、モデルサイズを増やすことなく、少量のデータを使用して特定の特性を持つモデルをトレーニングできます。
ControlNetは、制御可能な画像生成アルゴリズムです。ユーザーは追加の条件を追加することで、画像生成をより詳細に制御できます。テンセント混元は、画像のエッジ、深度、人物のポーズなどの条件を抽出・適用できる3つのControlNetモデルを最初に提供しています。
さらに、混元DiTは専用のアクセラレーションライブラリをリリースし、推論効率の向上と使用方法の簡素化を実現しました。混元DiTは、素材制作、商品合成、ゲーム画像生成など、多くの分野で広く使用されており、テンセント広告妙思プラットフォームや複数のメディアが混元DiTモデルを使用してコンテンツ生成を行っています。
公式サイト:
https://dit.hunyuan.tencent.com/
コード:
https://github.com/Tencent/HunyuanDiT
モデル:
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文:
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
データ作成手順:
https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md