中国国内の「AI+ソーシャル」という分野において、Soul AppがAIを活用して新たな活気を取り戻しつつあります!

最近、Soul公式は自社開発のエンドツーエンド全二重通話音声大規模モデルをアップグレードし、リリースしたことを発表しました。

今回のアップグレードで最も驚くべき効果は、ユーザーとバーチャルキャラクター間の音声通話が、まるで人間と会話しているかのように自然でスムーズになったことです!

そのリアルさを体感していただくために、以下の動画をご覧ください。

公式が公開した「AIとのリアルタイム通話体験」の例

では、Soulが自社開発したエンドツーエンド音声通話大規模モデルの何が特別なのでしょうか?公式の説明によると、最大の特長は以下の通りです。

  • 超低遅延インタラクション

  • 迅速な自動割り込み

  • 超リアルな音声表現

  • 感情の認識と理解能力など

超低遅延インタラクション能力とは、あなたが話した瞬間、AIがすぐに反応し、遅延が全くなく、AIとの距離を瞬時に縮めることができるということです。リアルな交流をするために待つ必要はなく、まるで人間と会話しているようです。

Soulの音声大規模モデルは、迅速な自動割り込み機能をサポートしています。つまり、AIと会話中に割り込みたい場合、AIはあなたの意図を理解し、簡単に割り込みを許容します。とても楽しいインタラクションです!

最後に、超リアルな音声表現と感情の認識と理解能力により、AIはあなたの言葉を理解するだけでなく、あなたの感情も感知し、感情に合わせた適切な応答ができます。

公式が公開した動画の例と合わせると、この機能が全面的にリリースされた後、Soulで体験する多くのユーザーは、人間とAIのバーチャルキャラクターを区別できなくなるかもしれません。

Soul側は、現在、エンドツーエンド音声通話大規模モデルを「異世界回響」リアルタイム通話シーン(クローズドベータテスト中)に適用しており、今後、AI Gou Danなど、AIによるコンパニオンやAIインタラクションの複数のシーンに展開していくとしています。

QQ20240905-115505.png

ご存知のとおり、Soulは2020年からAIGC技術の研究開発に着手し、インテリジェントな会話、音声技術、バーチャルキャラクターなどの重要な技術の研究開発に注力し、これらのAI能力をソーシャルシーンに深く統合してきました。

AIでソーシャルをアップグレードする過程で、Soulは擬人化された自然な感情的なコンパニオン体験の実現に特に重点を置いています。

ユーザーにより良い感情的なフィードバックとコンパニオンシップを提供するために、Soulの技術チームは常に感情の理解と遅延の問題に取り組んできました。彼らは自社開発の音声生成大規模モデル、音声認識大規模モデル、音声対話大規模モデル、音楽生成大規模モデルなどを発表し、リアルな音色の生成、音声DIY、複数言語の切り替え、複数感情の擬似人間リアルタイム対話などの機能をサポートしています。これらはすでにSoulの複数のシーン、例えば「AI Gou Dan」、「人狼魅影」AI音声リアルタイムインタラクション、「異世界回響」などで活用されています。

Soulが自社開発したエンドツーエンド音声通話大規模モデルがリリースされたことで、ユーザーはより自然な人間と機械のインタラクション体験を楽しむことができます。今後、Soulはマルチモーダルエンドツーエンド大規模モデル能力の構築をさらに推進し、人間とAIのインタラクションをより楽しく、没入感のあるものにする予定です。