PixelPlayer
Sistema de separación de fuentes audiovisuales
Producto ComúnMúsicaSeparación de audioAnálisis audiovisual
PixelPlayer es un sistema capaz de aprender a localizar las áreas de una imagen que producen sonido y separar el audio de entrada en un conjunto de componentes que representan el sonido de cada píxel, mediante la observación de una gran cantidad de videos sin etiquetas. Nuestro método aprovecha la sincronización natural bimodal visual y auditiva, aprendiendo a analizar conjuntamente el audio y la imagen sin necesidad de anotaciones manuales adicionales. El sistema se entrena con una gran cantidad de videos de entrenamiento que contienen solos y dúos de diferentes combinaciones de instrumentos musicales. No se proporciona supervisión sobre qué instrumentos aparecen, dónde se encuentran ni qué sonido producen en cada video. En la fase de prueba, la entrada del sistema es un video que muestra la interpretación de diferentes instrumentos y una entrada de audio monoaural. El sistema realiza la separación y localización de fuentes audiovisuales, separando la señal de audio de entrada en N canales de audio, cada uno correspondiente a una categoría diferente de instrumento. Además, el sistema puede localizar el sonido y asignar diferentes formas de onda de audio a cada píxel del video de entrada.