テンセントのHunYuan文生成画像大規模モデル(HunYuan DiT)が最近アップデートされ、6GBのVRAMでも動作するバージョンがリリースされました。これにより、個人ユーザーも容易に実行できるようになりました。このバージョンは、LoRA、ControlNetなどのプラグインとDiffusersライブラリで互換性があり、さらにKohyaのグラフィカルユーザーインターフェースにも対応することで、個人のLoRAモデルのトレーニングにおけるハードルを下げています。HunYuan DiTモデルは1.2バージョンにアップグレードされ、画像の質感と構図が向上しました。
同時に、テンセントはHunYuan文生成画像アノテーションモデル「HunYuan Captioner」をオープンソース化しました。このモデルは中国語と英語に対応し、文生成画像のシナリオ向けに最適化されており、中国語の意味をより正確に理解し、構造化され、完全で正確な画像説明を出力します。著名な人物やランドマークを認識し、開発者が個別の背景知識を追加することもできます。
さらに、HunYuan Captionerモデルのオープンソース化により、世界中の文生成画像研究者やデータアノテーション担当者は、画像説明の質を向上させ、より包括的で正確な画像説明を生成し、モデルの性能を高めることができます。生成されたデータセットは、HunYuan DiTベースのモデルのトレーニングだけでなく、他のビジョンモデルのトレーニングにも使用できます。
HunYuan DiTモデルの3つの主要なアップデートは、低VRAMバージョンのリリース、Kohyaトレーニングインターフェースの統合、そしてモデルの1.2バージョンへのアップグレードです。これらは、使用のハードルをさらに下げ、画像の品質を向上させました。HunYuan DiTモデルはより高品質な画像を生成しますが、以前はVRAMの要求が高く、多くの開発者をためらわせていました。今回、6GBのVRAMで動作する低VRAMバージョンがリリースされ、Hugging Faceとの連携により、低VRAMバージョンと関連プラグインはDiffusersライブラリと互換性があり、使用コストが簡素化されました。
Kohyaは、軽量なオープンソースのモデル微調整トレーニングサービスであり、グラフィカルユーザーインターフェースを提供し、拡散モデルタイプの文生成画像モデルのトレーニングに広く使用されています。ユーザーはKohyaを使用して、コードを書くことなく、モデルのフルパラメータファインチューニングとLoRAトレーニングを実行できます。
HunYuan Captionerモデルは、構造化された画像説明体系を構築し、複数のソースから説明の完全性を高め、大量の背景知識を注入することで、より正確で完全な説明を出力します。これらの最適化により、HunYuan DiTは人気のある国産DiTオープンソースモデルの一つとなり、GitHubのスター数は2.6kを超えています。
公式サイト
https://dit.hunyuan.tencent.com/
コード
https://github.com/Tencent/HunyuanDiT
モデル
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf