En el campo del análisis de video, la persistencia de los objetos es una pista crucial para la comprensión humana de que los objetos siguen existiendo incluso cuando están completamente ocultos. Sin embargo, la mayoría de los métodos actuales de segmentación de objetos solo se centran en los objetos visibles (modales), careciendo del tratamiento de objetos no modales (visibles + invisibles).

Para abordar este problema, los investigadores propusieron un método de dos etapas basado en el conocimiento previo de difusión, Diffusion-Vas, con el objetivo de mejorar la segmentación no modal y el relleno de contenido en video. Puede rastrear objetivos específicos en el video y luego utilizar un modelo de difusión para rellenar las partes ocultas.

image.png

La primera etapa de este método implica la generación de una máscara no modal del objeto. Los investigadores infieren la oclusión de los límites del objeto combinando la secuencia de máscaras visibles con un mapa de profundidad pseudo. El mapa de profundidad pseudo se obtiene mediante la estimación de profundidad monocular de la secuencia de video RGB. El objetivo de esta etapa es identificar las partes del objeto que pueden estar ocultas en la escena, expandiendo así el contorno completo del objeto.

Sobre la base de la máscara no modal generada en la primera etapa, la segunda etapa se encarga del relleno de contenido en las áreas ocultas. El equipo de investigación utiliza el contenido RGB modal y un modelo generativo condicional para rellenar las áreas ocultas, generando finalmente el contenido RGB no modal completo. Todo el proceso utiliza un marco de difusión latente condicional con una red 3D UNet como red troncal, asegurando la alta fidelidad del resultado generado.

Para verificar su eficacia, el equipo de investigación realizó pruebas de referencia del nuevo método en cuatro conjuntos de datos. Los resultados muestran que, en comparación con varios métodos avanzados, mejora la precisión de la segmentación no modal en las áreas ocultas del objeto hasta en un 13%. Especialmente en el manejo de escenas complejas, el método de investigación muestra una excelente robustez, pudiendo manejar eficazmente el movimiento intenso de la cámara y las oclusiones completas frecuentes.

Esta investigación no solo mejora la precisión del análisis de video, sino que también proporciona una nueva perspectiva para comprender la existencia de objetos en escenas complejas. En el futuro, esta tecnología podría aplicarse en varios campos, como la conducción autónoma y el análisis de videos de vigilancia.

Proyecto: https://diffusion-vas.github.io/

Puntos clave:

🌟 Se propone un nuevo método que logra la segmentación no modal y el relleno de contenido en video mediante el conocimiento previo de difusión.

🖼️ El método se divide en dos etapas: primero, se genera una máscara no modal y luego se rellena el área oculta.

📊 En varias pruebas de referencia, este método mejora significativamente la precisión de la segmentación no modal, especialmente en escenas complejas.