PixelPlayer-視聴覚源分離システム

PixelPlayerは、大量の無注釈ビデオを視聴することで、音声を発生させる画像領域を特定し、入力音声を各ピクセルの音を表すコンポーネントに分離できるシステムです。当システムは、視覚と聴覚の双方のモーダリティの自然な同期性を活用し、追加の人工注釈なしで、音声と画像を統合的に解析するモデルを学習します。様々な楽器のソロやデュエット演奏を含む大量のトレーニングビデオを使用して訓練されています。各ビデオに対して、どの楽器が登場し、どこにあるか、どのような音なのかといった教師データは提供されていません。テスト段階では、様々な楽器の演奏を示すビデオとモノラルの聴覚入力がシステムへの入力となります。システムは、オーディオビジュアル源分離と定位を実行し、入力音声信号をN個の音声チャネルに分割します。各チャネルは異なる楽器の種類に対応します。さらに、システムは音声を定位し、入力ビデオの各ピクセルに異なるオーディオ波形を割り当てることができます。

Best AI Websites & Tools

PixelPlayer

PixelPlayer 代替品

PixelPlayer — 視聴覚源分離システム

ClearerVoice-Studio — オープンソースのAI音声処理ツールキット。音声強調、分離、ターゲットスピーカー抽出に対応しています。

ボーカル除去・分離ツール — オンライン音声分離ツール

AudioSep — 自然言語クエリに基づくオープン領域の音声源分離モデル

DINOv2 — DINOv2：教師なし学習による堅牢な視覚特徴表現