EMOVA

感情豊かなマルチモーダル言語モデル

一般製品その他マルチモーダル音声認識
EMOVA(EMotionally Omni-present Voice Assistant)は、エンドツーエンドの音声処理を行いながら、最先端のビジュアル言語性能を維持するマルチモーダル言語モデルです。意味と音響を分離する音声セグメンターにより、感情豊かなマルチモーダルな対話を実現し、ビジュアル言語と音声のベンチマークテストで最先端の性能を達成しています。
ウェブサイトを開く

EMOVA 代替品