Xihu Xinchen annonce la publication en open source de son modèle Westlake-Omni. Premier grand modèle linguistique d'interaction vocale émotionnelle en chinois à être open source au monde, Westlake-Omni utilise une représentation discrète pour unifier les modalités textuelles et vocales. Il met particulièrement l'accent sur le temps réel, offrant une expérience quasi instantanée avec une latence minimale.

Ce modèle possède d'excellentes capacités de compréhension et d'expression des émotions, capable de générer de la parole chinoise claire, naturelle et expressive. Cette capacité est le fruit d'un entraînement approfondi sur un ensemble de données de haute qualité concernant la parole émotionnelle en chinois, permettant au modèle non seulement de comprendre les émotions complexes dans le contexte de la langue chinoise, mais aussi de rendre l'interaction plus humaine.

微信截图_20240926081503.png

Xihu Xinchen espère qu'en publiant en open source le modèle Westlake-Omni, davantage de développeurs participeront au développement des technologies d'interaction vocale émotionnelle en chinois, contribuant ainsi à faire progresser et à développer ce domaine.

Adresse du projet : https://github.com/xinchen-ai/Westlake-Omni