EMOVA(EMotionally Omni-present Voice Assistant)は、エンドツーエンドの音声処理を行いながら、最先端のビジュアル言語性能を維持するマルチモーダル言語モデルです。意味と音響を分離する音声セグメンターにより、感情豊かなマルチモーダルな対話を実現し、ビジュアル言語と音声のベンチマークテストで最先端の性能を達成しています。