最近、Ultralight-Digital-Humanというオープンソースプロジェクトが開発者コミュニティで大きな注目を集めています。このプロジェクトは、デジタルヒューマン技術のモバイル端末への展開における課題を克服し、一般的なスマートフォンでもリアルタイムでデジタルヒューマンアプリケーションを実行可能にしました。これにより、関連技術の普及に新たな可能性がもたらされます。

この超軽量デジタルヒューマンモデルは、革新的な深層学習技術を採用しています。アルゴリズムの最適化とモデルの圧縮により、大規模なデジタルヒューマンシステムをモバイルデバイスでスムーズに動作するレベルまで「軽量化」することに成功しました。システムは、ビデオとオーディオの入力のリアルタイム処理をサポートし、デジタルヒューマンの画像を迅速に合成し、応答速度もスムーズです。

image.png

技術的な実現において、このプロジェクトはWenetとHubertの2種類の音声特徴抽出方式を統合しており、開発者は具体的なアプリケーションシナリオに応じて柔軟に選択できます。また、SyncNet技術を導入することで、デジタルヒューマンの唇の同期効果が大幅に向上しました。モバイルデバイスでのスムーズな動作を確保するために、開発チームはトレーニングと展開のプロセスでパラメータの剪定技術を採用し、計算リソースの需要を効果的に削減しました。

このプロジェクトのもう一つの大きな特徴は、完全なトレーニング手順のドキュメントを提供していることです。開発者は、3~5分間の高品質な顔のビデオを用意するだけで、ガイドに従って独自のデジタルヒューマンモデルのトレーニングを開始できます。システムはビデオの要件も明確に示しており、Wenetモードでは20fpsのフレームレート、Hubertモードでは25fpsが必要です。

トレーニング効果を確保するために、プロジェクトチームは開発者に以下の重要なポイントに注意するよう特に推奨しています。まず、事前にトレーニングされたモデルをベースとして使用すること、トレーニングデータの品質を確保すること、トレーニングプロセスを定期的に監視すること、そして必要に応じてトレーニングパラメータを調整することです。これらの詳細は、最終的なデジタルヒューマンの効果に直接影響します。

現在、このオープンソースプロジェクトは、ソーシャルアプリケーション、モバイルゲーム、仮想現実などの分野で大きな可能性を示しています。従来のデジタルヒューマン技術と比較して、ハードウェアのハードルを下げるだけでなく、クロスプラットフォームの互換性を実現し、あらゆる種類のスマートフォンで安定して動作します。

プロジェクトアドレス:https://github.com/anliyuan/Ultralight-Digital-Human