香港大学とバイトダンスが共同開発した、テキストプロンプトから高画質ビデオを生成する革新的なビデオ生成モデル「Goku」が正式リリースされました。このモデルは、最先端の生成アルゴリズムを活用し、テキストによる指示から高品質なビデオコンテンツを作成することで、デジタルアート表現の可能性を大きく広げます。

Gokuモデルの優れた機能を披露するため、研究チームは数々の魅力的なビデオサンプルを作成しました。これらのサンプルは、モデルの技術力だけでなく、創造的な表現における無限の可能性も示しています。

Gokuモデルの特長は、その高速な生成速度と高い画像品質です。膨大なデータによるトレーニングを通して、アニメーション、自然風景、動物の行動など、多様なシーンを生成できます。研究者たちは、MovieGenBenchのオリジナルプロンプトを用いたテストを実施し、デモ結果の一貫性と公平性を確保しました。

例えば、あるビデオでは、スタイリッシュな女性が東京の街を自信満々に歩く様子が描かれています。街のネオンが温かい夜空を彩り、行き交う人々の活気あふれる様子が、リアルで躍動感あふれるシーンを作り出しています。

別のビデオでは、巨大なマンモスが雪原を悠々と歩く様子が映し出されています。周囲の雪山と森が、まるで氷雪の世界にいるかのような雰囲気を醸し出しています。これらの生き生きとしたシーンは、視聴者の目を引きつけるとともに、アーティストたちに豊かなインスピレーションを与えてくれます。

さらに驚くべきことに、Gokuはバーチャルデジタルヒューマンビデオの直接生成もサポートします。Goku+はテキストを超現実的な人間のビデオに変換し、既存の方法を明らかに凌駕しています。特に、20秒を超えるビデオを生成でき、安定した手の動きと、被験者の表情豊かな顔と体の動きが特徴です。

image.png

また、製品画像からのビデオ生成や人物とのインタラクションビデオの生成、製品スタイルの維持と製品紹介ビデオの生成、テキストからの広告ビデオ生成なども可能です。

下図のように、Goku+は製品画像を魅力的なビデオクリップに変換し、エンドツーエンドの最適化を実現します。このプロセスにより、マーケティング資料の魅力と効果が向上します。

image.png

下図のように、特定の製品を効果的に紹介する、リアルで魅力的なビデオを作成できます。これらのビデオは、製品の魅力を効果的に捉え、視聴者のエンゲージメントと関心を高めます。

image.png

さらに、テキストからカスタムの高解像度ビデオを作成し、広告シーンを最適化できます。競合他社のビデオベースモデルを明らかに上回っています。

image.png

プロジェクトへのアクセス:https://saiyan-world.github.io/goku/

要点:

🌟 Gokuモデルは、香港大学とバイトダンスが共同開発した、テキストプロンプトから高品質なビデオコンテンツを生成するモデルです。

🎨 モデルは、東京の街を歩くスタイリッシュな女性や、雪原を歩く巨大なマンモスなど、様々なシーンをリアルに表現しています。

💡 Gokuモデルのリリースは、視覚芸術創作に新たなツールを提供し、クリエイターによる可能性の探求を支援します。