GaussianSpeech es un método novedoso que permite sintetizar secuencias de animación de alta fidelidad a partir de señales de audio, creando avatares 3D realistas y personalizados. Esta tecnología combina señales de audio con la técnica de renderizado gaussiano 3D para capturar las expresiones faciales y los movimientos detallados de la cabeza humana, incluyendo arrugas de la piel y movimientos faciales más sutiles. Las principales ventajas de GaussianSpeech incluyen la velocidad de renderizado en tiempo real, los efectos visuales dinámicos naturales y la capacidad de representar diversas expresiones y estilos faciales. La tecnología se basa en la creación de un conjunto de datos de secuencias audio-visuales multiperspectivas a gran escala y en el desarrollo de modelos de transformación condicionados por audio, capaces de extraer directamente características de labios y expresiones a partir de la entrada de audio.