En el campo del procesamiento de video, el seguimiento eficiente del movimiento tridimensional a partir de videos de una sola cámara ha sido un desafío, especialmente cuando se requiere un seguimiento preciso a nivel de píxel en secuencias largas. Los métodos tradicionales enfrentan múltiples desafíos, a menudo solo pueden rastrear una pequeña cantidad de puntos clave, sin lograr una comprensión detallada de la escena completa.
Además, las tecnologías existentes tienen altas demandas computacionales, lo que dificulta mantener la eficiencia al procesar videos largos. Simultáneamente, el seguimiento prolongado se ve afectado por problemas como el movimiento de la cámara y la oclusión de objetos, lo que lleva a errores en el seguimiento.
Actualmente, los métodos de estimación de movimiento en secuencias de video tienen sus propias ventajas y desventajas. La técnica de flujo óptico proporciona un seguimiento denso de píxeles, pero en escenas complejas, especialmente al procesar secuencias largas, muestra una resistencia insuficiente.
El flujo de escena es una extensión del flujo óptico, que utiliza datos RGB-D o nubes de puntos para estimar el movimiento tridimensional denso, pero aún es difícil de aplicar eficientemente en secuencias largas. Los métodos de seguimiento de puntos, aunque pueden capturar trayectorias de movimiento y combinan la atención espacial y temporal para lograr un seguimiento más suave, siguen siendo difíciles de implementar para un monitoreo denso debido a su alto costo computacional. Además, los métodos de seguimiento basados en reconstrucción utilizan campos de deformación para estimar el movimiento, pero no son muy prácticos en aplicaciones en tiempo real.
Recientemente, un equipo de investigación de la Universidad de Massachusetts Amherst, el laboratorio de IA MIT-IBM Watson y Snap Inc. presentó DELTA (Dense Efficient Long-range 3D Tracking for Any video), un método diseñado para el seguimiento eficiente de cada píxel en el espacio tridimensional. DELTA comienza con un seguimiento de baja resolución, utiliza un mecanismo de atención espacio-temporal y aplica un upsampler basado en atención para lograr una alta resolución y precisión. Sus innovaciones clave incluyen un upsampler para límites de movimiento claros, una arquitectura de atención espacial eficiente y una representación de profundidad logarítmica que mejora el rendimiento del seguimiento.
DELTA logró resultados de vanguardia en los conjuntos de datos CVO y Kubric3D, con una mejora de más del 10% en métricas como Jaccard promedio (AJ) y diferencia de posición promedio tridimensional (APD3D), y también se desempeñó excepcionalmente bien en los benchmarks de seguimiento de puntos tridimensionales TAP-Vid3D y LSFOdyssey. A diferencia de los métodos existentes, DELTA logró un seguimiento tridimensional denso a escala, con una velocidad de ejecución más de 8 veces más rápida que los métodos anteriores, mientras mantiene una precisión líder en la industria.
Los experimentos demostraron que DELTA tiene un rendimiento excelente en tareas de seguimiento tridimensional, superando a los métodos anteriores en velocidad y precisión. DELTA se entrenó en el conjunto de datos Kubric, que contiene más de 5600 videos, y su función de pérdida combina pérdidas de coordenadas 2D, profundidad y visibilidad.
En las pruebas de referencia, DELTA obtuvo las puntuaciones más altas en el seguimiento 2D de largo alcance y el seguimiento 3D denso en CVO y Kubric3D respectivamente, completando las tareas mucho más rápido que otros métodos. Las elecciones de diseño de DELTA, como la representación de profundidad logarítmica, la atención espacial y el upsampler basado en atención, mejoraron significativamente su precisión y eficiencia en varios escenarios de seguimiento.
DELTA es un método eficiente que puede rastrear cada píxel en los fotogramas de video, logrando precisión y tiempos de ejecución más rápidos en el seguimiento denso 2D y 3D. El método puede enfrentar desafíos en puntos con oclusión prolongada, y su mejor rendimiento se observa en videos cortos con menos de cientos de fotogramas. La precisión del seguimiento tridimensional de DELTA depende de la precisión y la estabilidad temporal de la estimación de profundidad monocular utilizada. Se espera que los avances en la estimación de profundidad monocular mejoren aún más el rendimiento de este método.
Enlace al proyecto: https://snap-research.github.io/DELTA/
Puntos clave:
🌟 DELTA es un método novedoso, diseñado para el seguimiento eficiente de cada píxel en videos de una sola cámara.
⚡ DELTA obtuvo resultados líderes en los conjuntos de datos CVO y Kubric3D, con una velocidad 8 veces más rápida que los métodos tradicionales.
🔍 El método puede tener desafíos en puntos con oclusión prolongada, pero muestra un excelente rendimiento en videos cortos.