AV-HuBERT

Framework d'apprentissage autosupervisé pour le traitement audio-visuel de la parole

Produit OrdinaireProgrammationTraitement audio-visuelApprentissage autosupervisé

AV-HuBERT est un framework d'apprentissage de représentations autosupervisé, spécialement conçu pour le traitement audio-visuel de la parole. Il a atteint des résultats de pointe en lecture labiale, en reconnaissance automatique de la parole (ASR) et en reconnaissance audio-visuelle de la parole lors des tests de référence LRS3. Ce framework apprend des représentations audio-visuelles de la parole grâce à la prédiction de clustering multi-modal masqué, et offre une reconnaissance audio-visuelle de la parole autosupervisée robuste.

Apprentissage de représentations audio-visuelles de la parole
Prédiction de clustering multi-modal masqué
Apprentissage autosupervisé
Lecture labiale
ASR et reconnaissance audio-visuelle de la parole

Recherche sur la reconnaissance audio-visuelle de la parole
Développement de systèmes de reconnaissance automatique de la parole
Analyse de clustering de données multimodales

Des chercheurs utilisent le framework AV-HuBERT pour des études expérimentales sur la reconnaissance audio-visuelle de la parole.
Des développeurs utilisent le modèle AV-HuBERT pour développer des applications de reconnaissance vocale capables de comprendre des contextes linguistiques différents.
Des éducateurs utilisent AV-HuBERT pour développer des outils d'apprentissage des langues
améliorant ainsi la compréhension linguistique des élèves.

Ouvrir le site Web

AV-HuBERT Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

AV-HuBERT Tendance des visites

AV-HuBERT Distribution géographique des visites

AV-HuBERT Sources de trafic

AV-HuBERT Alternatives

AV-HuBERT — Framework d'apprentissage autosupervisé pour le traitement audio-visuel de la parole

Programmation

•Traitement audio-visuel•Apprentissage autosupervisé

462

Modèle FLUX 1,58 bit — Modèle avancé de génération d'images à partir de texte, quantifié sur 1,58 bit.

Image

•Génération d'images•Quantification

582

DenseAV — Modèle d'alignement des caractéristiques audiovisuelles autosupervisé.

Vidéo

•Apprentissage autosupervisé•Alignement audiovisuel

234

Best AI Websites & Tools