EMOVA

Ein emotionsreiches multimodaler Sprachmodell

Normales ProduktAndereMultimodalSpracherkennung
EMOVA (EMotionally Omni-present Voice Assistant) ist ein multimodaler Sprachmodell, das eine End-to-End-Sprachverarbeitung ermöglicht und gleichzeitig eine führende Leistung in der Bild-Sprach-Verarbeitung aufweist. Das Modell erzielt durch einen semantisch-akustisch entkoppelten Sprachtokenizer emotionsreiche multimodale Dialoge und erreicht in Bild-Sprach- und Sprach-Benchmarks State-of-the-Art-Ergebnisse.
Website öffnen

EMOVA Alternativen