DenseAV
Modèle d'alignement des caractéristiques audiovisuelles autosupervisé.
Produit OrdinaireVidéoApprentissage autosuperviséAlignement audiovisuel
DenseAV est une nouvelle architecture d'encodage double qui apprend des caractéristiques d'alignement audiovisuelles sémantiques et haute résolution en regardant des vidéos. Elle est capable de découvrir le « sens » des mots et la « position » des sons sans supervision de localisation explicite, et de détecter et de distinguer automatiquement ces deux types de relations. La capacité de localisation de DenseAV provient d'un nouvel opérateur d'agrégation de caractéristiques multi-têtes qui compare directement les représentations denses d'images et d'audio pour l'apprentissage contrastif. De plus, DenseAV surpasse nettement l'état de l'art précédent sur les tâches de segmentation sémantique et surpasse ImageBind en recherche transmodale avec moins de la moitié des paramètres.
DenseAV Dernière situation du trafic
Nombre total de visites mensuelles
1455
Taux de rebond
63.99%
Nombre moyen de pages par visite
1.6
Durée moyenne de la visite
00:00:43