ManiWAV est un projet de recherche visant à apprendre des compétences de manipulation robotique à partir de données audio et visuelles acquises en extérieur. Il apprend directement des démonstrations humaines en collectant simultanément des retours audio et visuels, et en utilisant une interface de stratégie appropriée. Le modèle démontre les capacités du système à travers quatre tâches de manipulation riches en contact, nécessitant une perception passive des événements et des motifs de contact, ou une perception active des matériaux et de l'état de la surface des objets. De plus, le système est capable de généraliser à des environnements extérieurs inconnus grâce à l'apprentissage de démonstrations humaines variées en extérieur.