DenseAV

自己教師ありの視覚聴覚特徴アラインメントモデルです。

一般製品ビデオ自己教師あり学習視覚聴覚アラインメント
DenseAVは、ビデオを観察することで高解像度で意味のある視覚聴覚アラインメント特徴を学習する、新規のデュアルエンコーダ局所化アーキテクチャです。明示的な局所化の監視なしで単語の「意味」と音の「位置」を発見し、これら2つの関連付けのタイプを自動的に発見および区別できます。DenseAVの局所化能力は、密集した画像と音声表現を直接比較してコントラスト学習を行う、新しいマルチヘッド特徴集約演算子に由来します。さらに、DenseAVはセマンティックセグメンテーションタスクにおいて以前の最先端を大幅に上回り、パラメータ数が半分以下でImageBindを凌駕するクロスモーダル検索を実現しています。
ウェブサイトを開く

DenseAV 最新のトラフィック状況

月間総訪問数

1455

直帰率

63.99%

平均ページ/訪問

1.6

平均訪問時間

00:00:43

DenseAV 訪問数の傾向

DenseAV 訪問地理的分布

DenseAV トラフィックソース

DenseAV 代替品