Na área de análise de vídeo, a persistência de objetos é uma pista crucial para a compreensão humana de que os objetos ainda existem mesmo quando completamente obstruídos. No entanto, a maioria dos métodos atuais de segmentação de objetos concentra-se apenas em objetos modais (visíveis), faltando o tratamento de objetos amodais (visíveis + invisíveis).
Para abordar esse problema, os pesquisadores propuseram um método de duas etapas baseado em prioridade de difusão, chamado Diffusion-Vas, com o objetivo de melhorar a segmentação amodal e o preenchimento de conteúdo em vídeo. Ele consegue rastrear alvos específicos em vídeos e, em seguida, usar modelos de difusão para preencher as partes obstruídas.
A primeira etapa deste método envolve a geração de uma máscara amodal do objeto. Os pesquisadores inferem a oclusão dos limites do objeto combinando a sequência de máscaras visíveis com um mapa de pseudo-profundidade. O mapa de pseudo-profundidade é obtido através da estimativa de profundidade monocular de uma sequência de vídeo RGB. O objetivo desta etapa é identificar as partes do objeto que podem estar obstruídas na cena, expandindo assim o contorno completo do objeto.
Com base na máscara amodal gerada na primeira etapa, a segunda etapa é responsável pelo preenchimento de conteúdo na área obstruída. A equipe de pesquisa utiliza o conteúdo RGB modal e um modelo de geração condicional para preencher a área obstruída, gerando finalmente o conteúdo RGB amodal completo. O processo inteiro utiliza uma estrutura de difusão latente condicional com uma rede 3D UNet como espinha dorsal, garantindo alta fidelidade nos resultados gerados.
Para verificar sua eficácia, a equipe de pesquisa realizou testes de referência no novo método em quatro conjuntos de dados. Os resultados mostraram que, em comparação com vários métodos avançados, ele melhorou a precisão da segmentação amodal em áreas obstruídas do objeto em até 13%. Especialmente no tratamento de cenários complexos, o método de pesquisa demonstrou robustez excepcional, conseguindo lidar eficazmente com movimentos de câmera intensos e oclusões completas frequentes.
Esta pesquisa não apenas melhora a precisão da análise de vídeo, mas também fornece uma nova perspectiva para a compreensão da existência de objetos em cenários complexos. No futuro, esta tecnologia poderá ser aplicada em várias áreas, como direção autônoma e análise de vídeo de vigilância.
Projeto: https://diffusion-vas.github.io/
Destaques:
🌟 A pesquisa propõe um novo método para alcançar a segmentação amodal e o preenchimento de conteúdo em vídeo através de prioridade de difusão.
🖼️ O método é dividido em duas etapas: primeiro, gera-se uma máscara amodal, e depois preenche-se o conteúdo da área obstruída.
📊 Em vários testes de referência, o método melhorou significativamente a precisão da segmentação amodal, especialmente em cenários complexos.