復旦大学がオープンソースで公開したHalloは、音声と画像から話す動画を生成するプロジェクトで、ComfyUIプラグインにも対応しています。インストールには多くの依存関係が必要で、比較的ハードルが高いものの、このオープンソースエコシステムの登場は、以降の画像変換やその他のプロセスに多くの可能性と楽しみをもたらします。

image.png

Halloプロジェクトは、音声を入力することで顔写真を話すようにし、それに合わせた表情も付け加えることができます。非常に自然な仕上がりになります。このプロジェクトはエンドツーエンドの拡散モデルを採用し、階層的な音声駆動型視覚合成モジュールを導入することで、唇の動き、表情、姿勢など、音声入力と視覚出力の精度を高めています。

この階層的な音声駆動型視覚合成モジュールは、表情や姿勢の多様性に対する適応制御を提供し、様々な人物へのパーソナライズされたカスタマイズをより効果的に実現します。つまり、誰の顔写真でもHalloプロジェクトを使って話す動画を生成でき、まるで本人が話しているかのように自然な仕上がりになります。

Halloプロジェクトのインストールは比較的複雑かもしれませんが、その登場はオープンソースエコシステムに新たな活気をもたらしました。技術の進歩に伴い、今後このようなプロジェクトがさらに登場し、私たちの生活により多くの便利さと楽しみをもたらしてくれることを期待できます。

プラグインアドレス:https://github.com/AIFSH/ComfyUI-Hallo