EMOVA (EMotionally Omni-present Voice Assistant) es un modelo de lenguaje multimodal capaz de realizar procesamiento de voz de extremo a extremo, manteniendo al mismo tiempo un rendimiento visual-lingüístico de vanguardia. A través de un segmentador de voz con desacoplamiento semántico-acústico, EMOVA logra conversaciones multimodales ricas en emoción y alcanza un rendimiento de última generación en pruebas de referencia de visión-lenguaje y voz.