ManiWAV é um projeto de pesquisa que visa aprender habilidades de manipulação robótica a partir de dados de áudio e vídeo em ambientes externos. Ele coleta feedbacks visuais e de áudio sincronizados de demonstrações humanas e aprende diretamente dessas demonstrações estratégias de manipulação robótica através de uma interface de estratégia correspondente. O modelo demonstra a capacidade do sistema em quatro tarefas de manipulação ricas em contato, que exigem que o robô perceba passivamente eventos e padrões de contato, ou ativamente detecte o material e o estado da superfície de um objeto. Além disso, o sistema é capaz de generalizar para ambientes externos não vistos, aprendendo com demonstrações humanas diversas em ambientes externos.