DenseAV

Modèle d'alignement des caractéristiques audiovisuelles autosupervisé.

Produit OrdinaireVidéoApprentissage autosuperviséAlignement audiovisuel
DenseAV est une nouvelle architecture d'encodage double qui apprend des caractéristiques d'alignement audiovisuelles sémantiques et haute résolution en regardant des vidéos. Elle est capable de découvrir le « sens » des mots et la « position » des sons sans supervision de localisation explicite, et de détecter et de distinguer automatiquement ces deux types de relations. La capacité de localisation de DenseAV provient d'un nouvel opérateur d'agrégation de caractéristiques multi-têtes qui compare directement les représentations denses d'images et d'audio pour l'apprentissage contrastif. De plus, DenseAV surpasse nettement l'état de l'art précédent sur les tâches de segmentation sémantique et surpasse ImageBind en recherche transmodale avec moins de la moitié des paramètres.
Ouvrir le site Web

DenseAV Dernière situation du trafic

Nombre total de visites mensuelles

1455

Taux de rebond

63.99%

Nombre moyen de pages par visite

1.6

Durée moyenne de la visite

00:00:43

DenseAV Tendance des visites

DenseAV Distribution géographique des visites

DenseAV Sources de trafic