GLM-4-Voice est un modèle vocal de bout en bout développé par l'équipe de l'université Tsinghua. Il peut comprendre et générer directement de la voix en chinois et en anglais, et mener des conversations vocales en temps réel. Grâce à des techniques avancées de reconnaissance et de synthèse vocale, il réalise une conversion transparente de la voix en texte puis en voix, offrant une capacité de dialogue à faible latence et à haute intelligence. Ce modèle a été optimisé pour son intelligence et sa capacité de synthèse en mode vocal, et convient aux scénarios nécessitant une interaction vocale en temps réel.