MIT的PixelPlayer项目是一款视频处理神器,能自动从视频中识别和分离不同的声音源,包括乐器声音等。通过声音和图像的联合分析,系统实现了声音的精确定位和分离,推动了音视频处理技术的边界,为多模态人工智能研究和应用提供了新视角和工具。