TANGOは、HeyGenに匹敵する強力なソリューションです。この革新的なプロジェクトは、顔と唇の同期をサポートするだけでなく、驚くべきことに、音声に完璧に一致する全身動作のビデオを生成できます。

TANGOの最大の強みは、その独自の生成ロジックにあります。まず、システムはユーザーが提供した短いビデオサンプルを分析し、様々な体の姿勢と動作の遷移を含む「動作マップ」を作成します。

次に、入力された音声コンテンツに基づいて、最適な動作シーケンスを選択します。最後に、スムーズなトランジションフレームを生成することで、自然でリアルな動作ビデオを作成します。この方法により、TANGOはわずか数十秒のサンプルビデオから、音声に一致する無限量の全身動作ビデオを生成できます。

TANGOプロジェクトの技術基盤は、階層的オーディオモーション埋め込みと拡散補間アルゴリズムに基づいています。これらの高度な技術により、システムは音声の音声特徴を正確に理解し、対応するジェスチャーに変換できます。

同時に、拡散補間技術により、動作間の遷移が自然でスムーズになり、ぎこちない切り替えを防ぎ、ビデオ全体の視覚的な質を大幅に向上させています。

開発者や技術愛好家にとって、TANGOのオープンソース性は大きな魅力です。さらなる革新と改善のための広大な空間を提供します。例えば、快手(Kuaishou)がオープンソース化したLivePortraitなどの唇の同期プロジェクトと組み合わせることで、より完全でリアルなAIビデオ生成システムを作成できる可能性があります。

TANGOの応用範囲は非常に広いです。教育者、コンテンツクリエイター、さらには一般ユーザーにとっても、TANGOはシンプルで使いやすいインターフェースを提供します。ユーザーは音声ファイルをアップロードするだけで、対応するジェスチャービデオを生成でき、ビデオ制作プロセスを大幅に簡素化し、制作をより簡単かつ効率的にします。

しかし、TANGOは全身動作生成において画期的な進歩を遂げましたが、現在オープンソース化されているHeyGenのようなプロジェクトには、いくつかの制限があることを認識する必要があります。ほとんどのプロジェクトは、顔と唇の同期を主にサポートしており、より広範囲の肢体運動生成はまだ改善の余地があります。

プロジェクトアドレス:https://pantomatrix.github.io/TANGO/