audio2photoreal es un proyecto de código abierto que genera avatares fotorrealistas a partir de audio. Incluye una implementación en PyTorch capaz de sintetizar imágenes de personas en conversación a partir de audio. El proyecto proporciona código de entrenamiento, código de prueba, modelos de movimiento preentrenados y acceso a conjuntos de datos. Sus modelos incluyen un modelo de difusión facial, un modelo de difusión corporal, un modelo VQ-VAE corporal y un modelo de transformador guiado por el cuerpo. Este proyecto permite a investigadores y desarrolladores entrenar sus propios modelos y generar avatares realistas de alta calidad basados en el habla.