チャイナZ(ChinaZ.com)6月21日ニュース:テンセントの混元文生図大規模言語モデル(混元DiTモデル)のトレーニングコードが全面的にオープンソース化されました。LoRAプラグインとControlNetプラグインを含みます。

LoRAは、大規模言語モデルを微調整するための技術です。元のモデルを変更したり、モデルサイズを増やすことなく、少量のデータを使用して特定の特性を持つモデルをトレーニングできます。

微信截图_20240621114949.png

ControlNetは、制御可能な画像生成アルゴリズムです。ユーザーは追加の条件を追加することで、画像生成をより詳細に制御できます。テンセント混元は、画像のエッジ、深度、人物のポーズなどの条件を抽出・適用できる3つのControlNetモデルを最初に提供しています。

さらに、混元DiTは専用のアクセラレーションライブラリをリリースし、推論効率の向上と使用方法の簡素化を実現しました。混元DiTは、素材制作、商品合成、ゲーム画像生成など、多くの分野で広く使用されており、テンセント広告妙思プラットフォームや複数のメディアが混元DiTモデルを使用してコンテンツ生成を行っています。

公式サイト:

https://dit.hunyuan.tencent.com/

コード:

https://github.com/Tencent/HunyuanDiT

モデル:

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

論文:

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

データ作成手順:

https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md