En el campo de la visión por IA, la localización de objetivos ha sido un problema difícil de resolver. Los algoritmos tradicionales son como una "vista cansada", solo pueden delimitar el objetivo con un "marco" aproximado, sin poder ver los detalles internos. Es como describir a un amigo a una persona solo con su altura y complexión general; ¡es poco probable que tu amigo la encuentre!
Para solucionar este problema, un grupo de expertos de la Universidad Tecnológica de Illinois, Cisco Research y la Universidad de Florida Central, desarrollaron un nuevo marco de localización visual llamado SegVG, ¡que pretende acabar con la "vista cansada" de la IA!
El secreto principal de SegVG es el detalle a "nivel de píxel". Los algoritmos tradicionales solo utilizan información de cuadros delimitadores para entrenar la IA, lo que equivale a mostrarle a la IA una sombra borrosa. SegVG, en cambio, convierte la información del cuadro delimitador en señales de segmentación, lo que equivale a ponerle a la IA "lentes de alta definición", ¡permitiéndole ver cada píxel del objetivo!
En concreto, SegVG utiliza un "codificador-decodificador multicapa y multitarea". Este nombre suena complejo, pero puedes entenderlo como un "microscopio" súper preciso que contiene consultas para la regresión y varias consultas para la segmentación. En pocas palabras, utiliza diferentes "lentes" para realizar tareas de regresión de cuadros delimitadores y segmentación, observando repetidamente el objetivo y extrayendo información más precisa.
Lo que es aún más impresionante es que SegVG también introduce un "módulo de alineación ternaria", que equivale a equipar a la IA con un "traductor" para resolver el problema de la "incompatibilidad lingüística" entre los parámetros de preentrenamiento del modelo y la incrustación de consultas. A través del mecanismo de atención ternaria, este "traductor" puede "traducir" las consultas, el texto y las características visuales al mismo canal, permitiendo que la IA comprenda mejor la información del objetivo.
¿Qué tal funciona SegVG? Los expertos realizaron experimentos en cinco conjuntos de datos de uso común y descubrieron que el rendimiento de SegVG supera al de una gran cantidad de algoritmos tradicionales. ¡Especialmente en los conjuntos de datos RefCOCO+ y RefCOCOg, conocidos por ser "difíciles", SegVG ha logrado resultados innovadores!
Además de la localización precisa, SegVG también puede generar una puntuación de confianza de la predicción del modelo. En pocas palabras, la IA te dirá con cuánta seguridad está de su juicio. Esto es muy importante en las aplicaciones prácticas; por ejemplo, si quieres utilizar la IA para identificar imágenes médicas, si la confianza de la IA es baja, necesitarás una revisión manual para evitar diagnósticos erróneos.
La publicación de código abierto de SegVG es una gran noticia para todo el campo de la visión por IA. Creemos que cada vez más desarrolladores e investigadores se unirán al equipo de SegVG para impulsar conjuntamente el desarrollo de la tecnología de visión por IA.
Enlace del artículo: https://arxiv.org/pdf/2407.03200
Enlace del código: https://github.com/WeitaiKang/SegVG/tree/main