JoyHalloは、標準中国語ビデオ生成用に設計されたデジタルヒューマンモデルです。京東健康国際有限公司の従業員から収集した29時間の標準中国語ビデオを使用して、jdh-Halloデータセットを作成しました。このデータセットは、年齢や話し方(会話や専門的な医療トピックを含む)がさまざまに含まれています。JoyHalloモデルは、中国語wav2vec2モデルを使用して音声特徴を埋め込み、唇、表情、姿勢の特徴間の相互関係を捉える半解離構造を提案することで、情報利用効率の向上と推論速度の14.3%向上を実現しました。さらに、JoyHalloは英語ビデオ生成においても優れたパフォーマンスを示し、卓越したクロスリンガル生成能力を備えています。