DenseAV

Ein selbstüberwachtes Modell zur Ausrichtung von Audio- und Video-Merkmalen.

Normales ProduktVideoSelbstüberwachtes LernenAudio-Video-Ausrichtung
DenseAV ist eine neuartige Architektur mit zwei Encodern, die hoch auflösende, semantisch aussagekräftige, audiovisuelle Merkmale durch das Betrachten von Videos erlernt. Sie kann die „Bedeutung“ von Wörtern und die „Position“ von Geräuschen ohne explizite Positionsüberwachung entdecken und diese beiden Arten von Beziehungen automatisch erkennen und unterscheiden. Die Lokalisierungsfähigkeit von DenseAV beruht auf einem neuartigen mehrköpfigen Merkmalsaggregationsoperator, der dichte Bild- und Audiodarstellungen direkt zum kontrastiven Lernen vergleicht. Darüber hinaus übertrifft DenseAV deutlich den bisherigen Stand der Technik bei semantischen Segmentierungsaufgaben und übertrifft ImageBind bei der cross-modalen Suche mit weniger als der Hälfte der Parameter.
Website öffnen

DenseAV Neueste Verkehrssituation

Monatliche Gesamtbesuche

1455

Absprungrate

63.99%

Durchschnittliche Seiten pro Besuch

1.6

Durchschnittliche Besuchsdauer

00:00:43

DenseAV Besuchstrend

DenseAV Geografische Verteilung der Besuche

DenseAV Traffic-Quellen

DenseAV Alternativen