audio2photoreal est un projet open source permettant de générer des avatars photoréalistes à partir d'enregistrements audio. Il inclut une implémentation PyTorch capable de synthétiser des images de visages humains en conversation à partir d'audio. Le projet fournit le code d'entraînement et de test, des modèles de mouvement pré-entraînés, et un accès à des jeux de données. Ses modèles comprennent un modèle de diffusion pour le visage, un modèle de diffusion pour le corps, un modèle VQ-VAE pour le corps et un modèle de transformateur guidé par le corps. Ce projet permet aux chercheurs et développeurs d'entraîner leurs propres modèles et de générer des avatars réalistes de haute qualité basés sur la synthèse vocale.