DenseAV

Modèle d'alignement des caractéristiques audiovisuelles autosupervisé.

Produit OrdinaireVidéoApprentissage autosuperviséAlignement audiovisuel

DenseAV est une nouvelle architecture d'encodage double qui apprend des caractéristiques d'alignement audiovisuelles sémantiques et haute résolution en regardant des vidéos. Elle est capable de découvrir le « sens » des mots et la « position » des sons sans supervision de localisation explicite, et de détecter et de distinguer automatiquement ces deux types de relations. La capacité de localisation de DenseAV provient d'un nouvel opérateur d'agrégation de caractéristiques multi-têtes qui compare directement les représentations denses d'images et d'audio pour l'apprentissage contrastif. De plus, DenseAV surpasse nettement l'état de l'art précédent sur les tâches de segmentation sémantique et surpasse ImageBind en recherche transmodale avec moins de la moitié des paramètres.

Découverte du sens des mots et de la position des sons dans les vidéos sans supervision.
Utilisation d'un opérateur d'agrégation de caractéristiques multi-têtes pour l'apprentissage contrastif.
Apprentissage autosupervisé sans étiquettes.
Dépassement de l'état de l'art précédent sur les tâches de segmentation sémantique.
Dépassement d'ImageBind en recherche transmodale avec moins de paramètres.
Contribution de deux nouveaux ensembles de données pour améliorer l'évaluation des représentations audiovisuelles.

DenseAV est destiné aux chercheurs et développeurs qui ont besoin d'extraire automatiquement des informations sémantiques à partir du contenu vidéo
en particulier dans les domaines où l'analyse du contenu audiovisuel se fait sans données annotées.

Dans le domaine du traitement du langage naturel
pour comprendre le contenu des dialogues et les scènes dans les vidéos.
Dans l'analyse du contenu vidéo
pour identifier et localiser les sons et objets clés dans les vidéos.
Dans les systèmes de recherche multimédia

1. Accéder au lien web de DenseAV pour obtenir des informations de base sur le modèle.
2. Lire l'article de DenseAV pour comprendre la technologie et les principes sous-jacents.
3. Entraîner et tester le modèle à l'aide du code et des ensembles de données fournis par DenseAV.
4. Utiliser les capacités de localisation de DenseAV pour effectuer une segmentation sémantique du contenu vidéo.
5. Appliquer DenseAV aux tâches de recherche transmodale pour améliorer la précision de la recherche.

Ouvrir le site Web

DenseAV Dernière situation du trafic

Nombre total de visites mensuelles

1455

Taux de rebond

63.99%

Nombre moyen de pages par visite

1.6

Durée moyenne de la visite

00:00:43

DenseAV Tendance des visites

DenseAV Distribution géographique des visites

DenseAV Sources de trafic

DenseAV Alternatives

DenseAV — Modèle d'alignement des caractéristiques audiovisuelles autosupervisé.

Vidéo

•Apprentissage autosupervisé•Alignement audiovisuel

228

Modèle FLUX 1,58 bit — Modèle avancé de génération d'images à partir de texte, quantifié sur 1,58 bit.

Image

•Génération d'images•Quantification

576

InternViT-300M-448px-V2_5 — Version améliorée basée sur InternViT-300M-448px, améliorant les capacités d'extraction des caractéristiques visuelles.

Image

•Extraction de caractéristiques visuelles•Apprentissage multimodal

144

AV-HuBERT — Framework d'apprentissage autosupervisé pour le traitement audio-visuel de la parole

Programmation

•Traitement audio-visuel•Apprentissage autosupervisé

456

PIXTA AI - Service de données d'entraînement IA/ML — Pixta AI | Service d'annotation et d'acquisition de données à grande échelle

Productivité

•Annotation de données•Acquisition de données

120

Best AI Websites & Tools