Incarnation photoréaliste à partir d'audio est un framework qui génère des avatars corporels photoréalistes. Il génère dynamiquement des poses variées du visage, du corps et des mains en fonction d'une conversation. La clé de notre méthode réside dans la combinaison de la diversité des échantillons obtenue par quantification vectorielle avec les détails haute fréquence apportés par la diffusion, permettant de générer des mouvements plus dynamiques et expressifs. La visualisation des mouvements générés via des avatars corporels hautement réalistes permet de capturer les nuances subtiles des poses (par exemple, la moquerie et l'arrogance). Pour favoriser ce domaine de recherche, nous introduisons un nouveau jeu de données conversationnelles multivues permettant une reconstruction photoréaliste. Les expériences montrent que notre modèle génère des mouvements appropriés et variés, surpassant les méthodes basées uniquement sur la diffusion ou la quantification vectorielle. De plus, notre évaluation perceptive souligne l'importance du réalisme photographique (par rapport aux maillages) pour une évaluation précise des détails subtils des mouvements dans les poses conversationnelles. Le code et le jeu de données sont disponibles en ligne.