GLM-4-Voice es un modelo de voz de extremo a extremo desarrollado por el equipo de la Universidad Tsinghua, capaz de comprender y generar voz en chino e inglés directamente, llevando a cabo conversaciones de voz en tiempo real. A través de avanzadas tecnologías de reconocimiento y síntesis de voz, logra una conversión fluida de voz a texto y viceversa, con baja latencia y una capacidad de diálogo inteligente. El modelo se ha optimizado en cuanto a inteligencia y expresividad de la síntesis en modalidad de voz, siendo adecuado para escenarios que requieren interacción de voz en tiempo real.