O VideoChat é um projeto de avatar digital com interação de voz em tempo real, que suporta soluções de voz end-to-end (GLM-4-Voice - THG) e em cascata (ASR-LLM-TTS-THG). Os usuários podem personalizar a aparência e o timbre de voz do avatar digital, com suporte para clonagem de voz, sem necessidade de treinamento, e baixa latência de até 3 segundos no primeiro pacote. O projeto utiliza as mais recentes tecnologias de inteligência artificial, incluindo Reconhecimento Automático de Fala (ASR), Modelos de Linguagem de Grande Escala (LLM), Modelos de Linguagem de Grande Escala Multimodal de ponta a ponta (MLLM), Conversão de Texto em Fala (TTS) e Geração de Cabeça Falante (THG), fornecendo aos usuários uma experiência interativa altamente personalizável e de baixa latência.