可灵が有料化されたのは残念ですが、新たな無料動画生成ツールが登場しました。注目を集めていた生数科技の動画生成モデル「Vidu」が正式にグローバル展開を開始しました。メールアドレスで登録・ログインするだけで利用でき、審査待ちの必要もありません。登録が完了すると、80ポイントがもらえます。
このAI動画ジェネレーターは機能が充実しており、操作も簡単です。4秒または8秒の高解像度(1080P)動画を簡単に生成でき、高度な動画制作のニーズにも対応できます。
Viduの主な特長:
高速生成: Viduは業界最速の推論速度を実現しており、4秒の動画をわずか30秒で生成できます。これは業界最速の2倍の速度です。
高精細度: アニメスタイルでも写実的なスタイルでも、Viduは生き生きとしたリアルな映像を生成します。人物の動きは自然で滑らかで、大きな動きでも映像が崩れることはありません。
キャラクターの一貫性: Viduはキャラクターの一貫性を維持する機能を備えています。キャラクターの画像をアップロードすると、任意のシーンで任意の動作を指定でき、ミームや絵文字の制作が容易になります。
複数のスタイルに対応: 写実的なスタイルに加えて、Viduはアニメスタイルの動画生成にも対応しており、宮崎駿作品のような豊かな想像力に満ちた画風を実現します。
テキストから動画への直接変換: 基盤アーキテクチャの革新により、Viduはワンカットで生成されたような、フレーム補間による痕跡のない滑らかな動画を生成します。
幅広い用途: ゲーム制作、映画のポストプロダクションから教育、研修まで、Viduは強力なサポートを提供します。
可灵やlumaなどの製品と比較して、Viduの主な特徴は、キャラクターの一貫性とアニメスタイルという2つの特色ある機能を導入している点です。
ここでは、AIbaseが以前に生成した平面イラストを使用してテストを行いました。このような画像は、可灵などのプラットフォームでは動画生成が難しく、顔が崩れやすい傾向があります。
Viduの操作インターフェースはシンプルで、画像をアップロードして用途を選択するだけです。ここでは、画像の背景を変更する予定はなく、「開始フレームとして使用する」を選択し、生成ボタンをクリックしました。
プロンプト:小雨が降る水たまりで楽しそうに水たまりを踏む男の子、雨がどんどん強くなる
テスト結果は次のとおりです。
ご覧のように、Viduはアニメスタイルの動画生成において、可灵などよりも優れており、人物の動きは自然で、顔が崩れることもありません。最後のフレームがプロンプトから少し外れている点を除けば、全体として使用可能です。
Viduのアニメーション生成能力をさらに検証するために、AIbaseは「伝統的な難問」である、アニメ風の古風な人物画像を用いたテストを行いました。昨日、この画像を使って可灵とlumaでテストを行いましたが、生成結果はあまり満足のいくものではありませんでした。古風なアニメ風の人物は、動画生成モデルが苦手とする分野の一つです。
プロンプト:帽子を手で直して、急に笑い出す少年
テスト結果は次のとおりです。
ご覧のように、古風な人物の動きは全体として自然で、手や顔もほとんど崩れていません。ただし、人物はやや醜くなっているように見えます。可灵と比較すると、古風なイラストから動画への変換においては比較的良好な結果と言えるでしょう。
3Dモデルタイプの画像も、Viduは簡単に処理できます:
プロンプト:可愛い機械の小さな竜がシャボン玉で遊んでいる
このような手描きのアニメ風の人物も、Viduは問題なく処理できます:
プロンプト:カップル、キス
キャラクターの一貫性テスト:
ここでは、AIbaseが以前に生成したチューリップを持った美しい女性画像をテスト画像として選択しました:
生成結果は次のとおりです。
プロンプト:女の子は宋代の漢服を着て、江南の路地を歩いている
AIbaseはいくつかの動画をテストしましたが、現時点では、Viduのキャラクターの一貫性に関するパフォーマンスはそれほど安定しておらず、生成された動画はぼやけており、人物が崩れることもあります。
注目すべき点として、Viduは可灵とは異なり、複数のタスクを同時に実行できません。前の動画の生成が完了するまで、次の動画の生成タスクを開始することはできません。
公式では、Viduは4秒の動画を30秒で生成できると宣伝されていますが、AIbaseの実験では、動画の生成には少なくとも2~3分必要でした。しかし、可灵やlumaと比較すると、明らかに高速です。
興味のある方は、ぜひお試しください。製品アドレス:https://top.aibase.com/tool/viduguanwang
Viduは清華大学の朱軍教授率いるチームによって開発され、独自開発のU-ViTアーキテクチャに基づいています。このアーキテクチャは、DiffusionとTransformerを統合した世界初のアーキテクチャであり、Soraが採用しているDiTアーキテクチャよりも早く提案されました。
Viduの革新的な点は、テキストから動画への直接的かつ連続的な変換を実現し、従来の複数ステップ処理におけるフレーム補間や連結を回避することで、より滑らかで自然な動画を生成できる点です。
生数科技は2023年3月に設立され、清華大学人工知能研究院の中核メンバーによって構成されています。彼らはマルチモーダル汎用大規模モデルの開発において、深いバックグラウンドと能力を持っています。2023年の設立以来、アリババグループ、啓明創投などの著名な企業から数億元の資金調達を行い、国内のマルチモーダル大規模モデル分野で最も高い評価を得ているスタートアップ企業となっています。