TANGO est une technique de reconstitution vidéo de gestes concomitants à la parole, basée sur l'intégration hiérarchisée audio-motrice et l'interpolation par diffusion. Elle utilise des algorithmes d'intelligence artificielle avancés pour convertir les signaux vocaux en mouvements gestuels correspondants, permettant une reconstitution naturelle des gestes des personnages dans une vidéo. Cette technologie présente un large éventail d'applications dans la production vidéo, la réalité virtuelle et la réalité augmentée, améliorant l'interactivité et le réalisme du contenu vidéo. Développé conjointement par l'Université de Tokyo et le CyberAgent AI Lab, TANGO représente le niveau actuel de pointe de l'intelligence artificielle dans les domaines de la reconnaissance gestuelle et de la génération de mouvements.