DenseAV

Um modelo de alinhamento de características audiovisuais autossupervisionado.

Produto ComumVídeoAprendizado autossupervisionadoAlinhamento audiovisual
DenseAV é uma nova arquitetura de localização de codificador duplo que aprende recursos de alinhamento audiovisuais de alta resolução e semanticamente significativos ao observar vídeos. Ele consegue descobrir o "significado" das palavras e a "localização" dos sons sem supervisão de localização explícita, e automaticamente descobre e diferencia esses dois tipos de associações. A capacidade de localização do DenseAV vem de um novo operador de agregação de recursos de múltiplas cabeças que compara diretamente as representações densas de imagem e áudio para aprendizado contrastivo. Além disso, o DenseAV ultrapassa significativamente o estado da arte em tarefas de segmentação semântica e supera o ImageBind na recuperação transmodal usando menos da metade dos parâmetros.
Abrir Site

DenseAV Situação do Tráfego Mais Recente

Total de Visitas Mensais

1455

Taxa de Rejeição

63.99%

Média de Páginas por Visita

1.6

Duração Média da Visita

00:00:43

DenseAV Tendência de Visitas

DenseAV Distribuição Geográfica das Visitas

DenseAV Fontes de Tráfego

DenseAV Alternativas