Xihu Xinchen anuncia la publicación de código abierto de su modelo Westlake-Omni. Como el primer modelo de interacción de voz de extremo a extremo en chino con capacidad de comprensión emocional de código abierto a nivel mundial, Westlake-Omni utiliza una representación discreta para unificar los modos de texto y voz, prestando especial atención a la capacidad de respuesta en tiempo real para ofrecer una experiencia con un retardo prácticamente nulo.
Este modelo cuenta con una excelente capacidad de comprensión y expresión emocional, capaz de generar voz en chino clara, natural y expresiva. Esta capacidad se debe a su entrenamiento profundo en un conjunto de datos de voz emocional en chino de alta calidad, lo que permite al modelo no solo comprender emociones complejas en el contexto del chino, sino también hacer que la interacción sea más humana.
Xihu Xinchen espera que, al publicar el código abierto del modelo Westlake-Omni, se anime a más desarrolladores a participar en el desarrollo de la tecnología de interacción de voz emocional en chino, impulsando conjuntamente el desarrollo y la aplicación de esta área.
Dirección del proyecto:https://github.com/xinchen-ai/Westlake-Omni