DenseAV
自己教師ありの視覚聴覚特徴アラインメントモデルです。
一般製品ビデオ自己教師あり学習視覚聴覚アラインメント
DenseAVは、ビデオを観察することで高解像度で意味のある視覚聴覚アラインメント特徴を学習する、新規のデュアルエンコーダ局所化アーキテクチャです。明示的な局所化の監視なしで単語の「意味」と音の「位置」を発見し、これら2つの関連付けのタイプを自動的に発見および区別できます。DenseAVの局所化能力は、密集した画像と音声表現を直接比較してコントラスト学習を行う、新しいマルチヘッド特徴集約演算子に由来します。さらに、DenseAVはセマンティックセグメンテーションタスクにおいて以前の最先端を大幅に上回り、パラメータ数が半分以下でImageBindを凌駕するクロスモーダル検索を実現しています。
DenseAV 最新のトラフィック状況
月間総訪問数
1455
直帰率
63.99%
平均ページ/訪問
1.6
平均訪問時間
00:00:43