Recientemente, un equipo de investigación de la Universidad de Washington publicó un nuevo modelo de seguimiento visual llamado SAMURAI. Este modelo, basado en Segment Anything Model 2 (SAM2), busca abordar los desafíos del seguimiento de objetos visuales en escenas complejas, especialmente con objetos que se mueven rápidamente o se ocultan a sí mismos.

SAM2 destaca en tareas de segmentación de objetos, pero presenta algunas limitaciones en el seguimiento visual. Por ejemplo, en escenas concurridas, su método de memoria de ventana fija no considera la calidad de la memoria seleccionada, lo que puede provocar la propagación de errores en la secuencia de vídeo.

Para solucionar este problema, el equipo de investigación propuso SAMURAI, que introduce pistas de movimiento temporal y un mecanismo de selección de memoria con percepción del movimiento. Esto mejora significativamente la capacidad de predicción del movimiento del objeto y la precisión de la selección de máscara. Esta innovación permite a SAMURAI lograr un seguimiento robusto y preciso sin necesidad de reentrenamiento o ajuste fino.

En cuanto a la operación en tiempo real, SAMURAI muestra un potente rendimiento de cero disparos (zero-shot), lo que significa que funciona bien sin entrenamiento en conjuntos de datos específicos.

image.png

Tras la evaluación, el equipo de investigación descubrió que SAMURAI mejoró significativamente la tasa de éxito y la precisión en varios conjuntos de datos de referencia. En el conjunto de datos LaSOT-ext, SAMURAI logró un aumento del 7,1 % en el AUC, mientras que en el conjunto de datos GOT-10k obtuvo un aumento del 3,5 % en el AO. Además, en comparación con los métodos totalmente supervisados, SAMURAI también mostró un rendimiento competitivo en el conjunto de datos LaSOT, demostrando su robustez y amplio potencial de aplicación en escenarios de seguimiento complejos.

El equipo de investigación afirma que el éxito de SAMURAI sienta las bases para futuras aplicaciones de la tecnología de seguimiento visual en entornos más complejos y dinámicos. Esperan que esta innovación impulse el desarrollo del campo del seguimiento visual, satisfaga las necesidades de las aplicaciones en tiempo real y proporcione una capacidad de reconocimiento visual más potente a diversos dispositivos inteligentes.

Enlace al proyecto: https://yangchris11.github.io/samurai/

Puntos clave:

🔍 SAMURAI es una mejora innovadora del modelo SAM2, diseñada para mejorar la capacidad de seguimiento de objetos visuales en escenas complejas.

⚙️ Mediante la introducción de un mecanismo de memoria con percepción del movimiento, SAMURAI puede predecir con precisión el movimiento del objeto y optimizar la selección de máscara, evitando la propagación de errores.

📈 En varios conjuntos de datos de referencia, SAMURAI muestra un potente rendimiento de cero disparos, mejorando significativamente la tasa de éxito y la precisión del seguimiento.