快手は本日、自社開発の画像生成モデル「可图 Kolors」をオープンソースとして公開しました。これは単なるモデルではなく、数十億件のテキストと画像のペアでトレーニングされており、汎用言語モデル(GLM)をテキストエンコーダーとして搭載し、中国語と英語の両方のプロンプトに対応、最大256トークンのコンテキストを処理できます。

可图 Kolors の特長:

  • 中国語と英語の両言語対応:汎用言語モデル(GLM)をテキストエンコーダーとして採用することで、英語だけでなく、中国語のプロンプトも完璧に理解し活用できます。

  • 長文処理能力:最大256トークンのコンテキスト長に対応し、複雑なシーンや豊かなストーリーなど、クリエイターが思い描く細部まで表現できます。

  • 大量データによるトレーニング:数十億件のテキストと画像のペアでトレーニングされているため、モデルは膨大な知識ベースを持ち、多様で正確な画像を生成できます。

  • 中国文化要素の最適化:中国の文化要素に特化して最適化されているため、生成される画像は中国文化の特徴を反映し、ローカライズされたニーズを満たします。

  • 中国語テキストの生成:「可图 Kolors」は中国語を理解するだけでなく、生成された画像に中国語のテキストを埋め込むことができ、画像表現力を高めます。

AIbaseによるテストでは、可图は画像への中国語の挿入において優れたパフォーマンスを示し、ほぼ正確に出力できますが、英語の場合は文字の欠落や誤りが発生しやすいことが分かりました。

QQ截图20240708112714.jpg

QQ截图20240708111705.jpg

ご覧のように、上の「寝転がる子猫」の画像は中国語で問題なく生成されていますが、「AIbase」に変更すると文字が欠落するケースがあります。中国語出力に関しては、可图は非常に優れたパフォーマンスを示していますが、テキストが長すぎるとエラーが発生する可能性があることに注意が必要です。

QQ截图20240708112728.jpg

このモデルは単なるツールではなく、快手の強力な技術支援によって支えられています。大量のデータでトレーニングされ、中国文化要素を特に最適化することで、より中国的な雰囲気の画像が生成されます。これは技術的なブレークスルーであると同時に、文化の継承でもあります。

オープンソース化計画には、CN(ControlNet)サポート、LoRA(低ランク適応)、IPA(画像プロンプト適応)、ComfyUIの直接サポートが含まれており、これらは創作プロセスをよりスムーズでパーソナライズするために役立ちます。

技術詳細:

  • 「可图 Kolors」はSDXLモデルアーキテクチャをベースとしており、ChatGLM256技術を統合することで、両言語の理解とテキスト生成能力が向上しています。

  • このモデルを実行するには、約19GBの大容量のVRAMが必要となるため、ハードウェア要件に注意が必要です。

快手による「可图 Kolors」のオープンソース化は、テクノロジーコミュニティへの貢献であると同時に、創作の自由への大胆な推進でもあります。これは、快手のAI技術への決意と能力を示すとともに、AIが芸術創作に無限の可能性をもたらすことを示しています。

可图公式サイト:https://top.aibase.com/tool/kuaishouketudamoxingkolors

プロジェクトアドレス:https://top.aibase.com/tool/kolors