DenseAV
Um modelo de alinhamento de características audiovisuais autossupervisionado.
Produto ComumVídeoAprendizado autossupervisionadoAlinhamento audiovisual
DenseAV é uma nova arquitetura de localização de codificador duplo que aprende recursos de alinhamento audiovisuais de alta resolução e semanticamente significativos ao observar vídeos. Ele consegue descobrir o "significado" das palavras e a "localização" dos sons sem supervisão de localização explícita, e automaticamente descobre e diferencia esses dois tipos de associações. A capacidade de localização do DenseAV vem de um novo operador de agregação de recursos de múltiplas cabeças que compara diretamente as representações densas de imagem e áudio para aprendizado contrastivo. Além disso, o DenseAV ultrapassa significativamente o estado da arte em tarefas de segmentação semântica e supera o ImageBind na recuperação transmodal usando menos da metade dos parâmetros.
DenseAV Situação do Tráfego Mais Recente
Total de Visitas Mensais
1455
Taxa de Rejeição
63.99%
Média de Páginas por Visita
1.6
Duração Média da Visita
00:00:43