DenseAV
Ein selbstüberwachtes Modell zur Ausrichtung von Audio- und Video-Merkmalen.
Normales ProduktVideoSelbstüberwachtes LernenAudio-Video-Ausrichtung
DenseAV ist eine neuartige Architektur mit zwei Encodern, die hoch auflösende, semantisch aussagekräftige, audiovisuelle Merkmale durch das Betrachten von Videos erlernt. Sie kann die „Bedeutung“ von Wörtern und die „Position“ von Geräuschen ohne explizite Positionsüberwachung entdecken und diese beiden Arten von Beziehungen automatisch erkennen und unterscheiden. Die Lokalisierungsfähigkeit von DenseAV beruht auf einem neuartigen mehrköpfigen Merkmalsaggregationsoperator, der dichte Bild- und Audiodarstellungen direkt zum kontrastiven Lernen vergleicht. Darüber hinaus übertrifft DenseAV deutlich den bisherigen Stand der Technik bei semantischen Segmentierungsaufgaben und übertrifft ImageBind bei der cross-modalen Suche mit weniger als der Hälfte der Parameter.
DenseAV Neueste Verkehrssituation
Monatliche Gesamtbesuche
1455
Absprungrate
63.99%
Durchschnittliche Seiten pro Besuch
1.6
Durchschnittliche Besuchsdauer
00:00:43