PixelPlayer

視聴覚源分離システム

一般製品音楽音声分離視聴覚分析
PixelPlayerは、大量の無注釈ビデオを視聴することで、音声を発生させる画像領域を特定し、入力音声を各ピクセルの音を表すコンポーネントに分離できるシステムです。当システムは、視覚と聴覚の双方のモーダリティの自然な同期性を活用し、追加の人工注釈なしで、音声と画像を統合的に解析するモデルを学習します。様々な楽器のソロやデュエット演奏を含む大量のトレーニングビデオを使用して訓練されています。各ビデオに対して、どの楽器が登場し、どこにあるか、どのような音なのかといった教師データは提供されていません。テスト段階では、様々な楽器の演奏を示すビデオとモノラルの聴覚入力がシステムへの入力となります。システムは、オーディオビジュアル源分離と定位を実行し、入力音声信号をN個の音声チャネルに分割します。各チャネルは異なる楽器の種類に対応します。さらに、システムは音声を定位し、入力ビデオの各ピクセルに異なるオーディオ波形を割り当てることができます。
ウェブサイトを開く