AV-HuBERT

Selbstüberwachtes Lernframework für audiovisuelle Sprachverarbeitung

Normales ProduktProgrammierungAudiovisuelle VerarbeitungSelbstüberwachtes Lernen

AV-HuBERT ist ein selbstüberwachtes Repräsentationslernframework, speziell für die audiovisuelle Sprachverarbeitung entwickelt. Es erreichte im LRS3-Benchmark für audiovisuelle Sprache State-of-the-Art-Ergebnisse in den Bereichen Lippelesen, automatische Spracherkennung (ASR) und audiovisuelle Spracherkennung. Das Framework lernt audiovisuelle Sprachrepräsentationen durch maskierte multimodal Cluster-Vorhersage und bietet eine robuste selbstüberwachte audiovisuelle Spracherkennung.

Audiovisuelle Sprachrepräsentationslernen
Maskierte multimodale Cluster-Vorhersage
Selbstüberwachtes Lernen
Lippelesen
ASR und audiovisuelle Spracherkennung

Forschung zur audiovisuellen Spracherkennung
Entwicklung von automatischen Spracherkennungssystemen
Multimodale Clusteranalyse

Forscher verwenden das AV-HuBERT-Framework für experimentelle Studien zur audiovisuellen Spracherkennung.
Entwickler nutzen das AV-HuBERT-Modell
um Spracherkennungsanwendungen zu entwickeln
die verschiedene sprachliche Umgebungen verstehen.
Pädagogen verwenden AV-HuBERT zur Entwicklung von Werkzeugen für den Spracherwerb und zur Verbesserung des Sprachverständnisses bei Schülern.

Website öffnen

AV-HuBERT Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

AV-HuBERT Besuchstrend

AV-HuBERT Geografische Verteilung der Besuche

AV-HuBERT Traffic-Quellen

AV-HuBERT Alternativen

AV-HuBERT — Selbstüberwachtes Lernframework für audiovisuelle Sprachverarbeitung

Programmierung

•Audiovisuelle Verarbeitung•Selbstüberwachtes Lernen

462

SHMT — Eine selbstüberwachte, hierarchische Make-up-Übertragungstechnik basierend auf latenten Diffusionsmodellen.

Bild

•Bildverarbeitung•Selbstüberwachtes Lernen

1.58-Bit FLUX — Ein fortschrittliches Text-zu-Bild-Generierungsmodell mit 1.58-Bit-Quantisierung.

Bild

•Bildgenerierung•Quantisierung

582

Sparsh — Selbstüberwachte taktile Repräsentationen für visuell basierte taktile Sensorik.

Bild

•Selbstüberwachtes Lernen•Taktile Sensorik

Video-Foley — System zur synchronen Erzeugung von Video-Sound

Produktivität

•Video-Sound-Synthese•Selbstüberwachtes Lernen

120

HOI-Swap — Hand-Objekt-Interaktionsbewusstsein in der Videobearbeitung

Video

•Videobearbeitung•Hand-Objekt-Interaktion

192

MimicBrush — Null-Shot-Bildbearbeitung, ein Klick, um den Stil eines Referenzbildes zu imitieren

Bild

•Bildbearbeitung•Null-Shot-Lernen

9360

DenseAV — Ein selbstüberwachtes Modell zur Ausrichtung von Audio- und Video-Merkmalen.

Video

•Selbstüberwachtes Lernen•Audio-Video-Ausrichtung

264

AniTalker — Wandelt statische Porträts und eingegebene Audiodaten in lebendige Animations-Gesprächsvideos um.

Video

•Animation•Gesichtsausdruck

1554

Miqu 1-70b — Miqu 1-70b ist ein quelloffenes, großes Sprachmodell.

Produktivität

•Transformer•GPT

1620

Eine Überprüfung der visuellen Wahrnehmung — Erlernen von String-Beziehungen zwischen Modellen und Überprüfung der visuellen Welt

Bild

•Sprachmodelle•Visuelle Wahrnehmung

DINOv2 — DINOv2: Robuste visuelle Merkmale durch selbstüberwachtes Lernen ohne Aufsicht

Bild

•Selbstüberwachtes Lernen•Computer Vision

276

Best AI Websites & Tools

AV-HuBERT

AV-HuBERT Neueste Verkehrssituation

AV-HuBERT Besuchstrend

AV-HuBERT Geografische Verteilung der Besuche

AV-HuBERT Traffic-Quellen

AV-HuBERT Alternativen

AV-HuBERT — Selbstüberwachtes Lernframework für audiovisuelle Sprachverarbeitung

SHMT — Eine selbstüberwachte, hierarchische Make-up-Übertragungstechnik basierend auf latenten Diffusionsmodellen.

1.58-Bit FLUX — Ein fortschrittliches Text-zu-Bild-Generierungsmodell mit 1.58-Bit-Quantisierung.

Sparsh — Selbstüberwachte taktile Repräsentationen für visuell basierte taktile Sensorik.

Video-Foley — System zur synchronen Erzeugung von Video-Sound

HOI-Swap — Hand-Objekt-Interaktionsbewusstsein in der Videobearbeitung

MimicBrush — Null-Shot-Bildbearbeitung, ein Klick, um den Stil eines Referenzbildes zu imitieren

DenseAV — Ein selbstüberwachtes Modell zur Ausrichtung von Audio- und Video-Merkmalen.

AniTalker — Wandelt statische Porträts und eingegebene Audiodaten in lebendige Animations-Gesprächsvideos um.

Miqu 1-70b — Miqu 1-70b ist ein quelloffenes, großes Sprachmodell.

Eine Überprüfung der visuellen Wahrnehmung — Erlernen von String-Beziehungen zwischen Modellen und Überprüfung der visuellen Welt

DINOv2 — DINOv2: Robuste visuelle Merkmale durch selbstüberwachtes Lernen ohne Aufsicht