今月初め、発表されたばかりで皆さんを驚かせたバイトダンスの新プロジェクト「Loopy」を覚えていますか?デジタル人間の表情や感情まで完璧に音声と同期させるリップシンクプロジェクトが、ついに「即夢」で正式にリリースされました。
AIbaseが実際に試してみたところ、その効果は非常に高く、現在、中国語に対応したリップシンクサービスとしては最高レベルと言えるでしょう。
従来のリップシンク動画には、口の動きは合っているように見えるものの、声がその人物から発せられているように感じられないという共通の問題がありました。そのため、リップシンク動画を見る際に、違和感を感じることがありました。
バイトダンスと浙江大学が共同で開発した、オーディオ駆動型のビデオ拡散モデル「LOOPY」はこの問題を完璧に解決しました。
従来のリップシンクが単に口を動かすだけだったのに対し、「Loopy」では、話す時や歌う時に、状況に合わせた適切なトーン、感情、表情を自動的に反映させることができます。ため息などの非音声的な動作、感情による眉毛や目の動き、自然な頭の動きなど、仮想キャラクターの細かな動きを正確に「制御」できます。
現在、この機能はバイトダンス傘下の「即夢」の動画生成モジュールに統合されています。
AIbaseは、女性の画像をアップロードしてテストしてみました。
「即夢」のリップシンク機能では、現在2種類の方法を選択できます。
1、テキスト朗読
「即夢」の操作は基本的に簡単で、リップシンクを行うキャラクターの画像または動画をアップロードし、テキストを入力して、音声を選択するだけです。ここではAIbaseはクールな女性の声を選び、テストしてみました。結果は次の通りです。
ご覧の通り、人物は話す際に微妙な表情も示し、話す際の法令線などの細かい動きもリアルです。
2、ローカル音声のアップロード
さらに、話すだけでなく、歌のオーディオをアップロードして、歌を歌わせることもできます。
ここではAIbaseは、最近TikTokで人気の野人(楽曲)の一部を選び、効果を確認してみました。
効果は素晴らしく、口の動きが合っているだけでなく、声にも違和感を感じません。まるで、その女性の本来の声のように聞こえます。
ただし、一つ小さな問題があります。AIbaseが選んだ女性の画像は、目が視聴者の方を見ていないため、没入感が少し不足しているかもしれません。そこで、正面を向いた画像を試してみました。
これでずいぶん良くなりましたね。さらに、人物は歌っている時に目を閉じたり、頭を振ったりと、非常にリアルな動きをしています。
AIbaseは男性版もテストしてみました。結果は次の通りです。
効果は驚くべきものでしょうか?AIbaseを特に驚かせたのは、リップシンク時に喉仏や眉毛などの非常に細かい変化にも配慮している点です。これにより、全体的な動画がよりリアルになっています。
興味のある方は、ぜひお試しください。
「即夢」製品入口:https://top.aibase.com/tool/jimeng