En NeurIPS 2023, se presentó por primera vez MQ-Det, un gran modelo multimodal que logró una mejora significativa en la precisión de la detección de objetos, alcanzando un aumento del 7.8%. La singularidad de MQ-Det radica en la fusión de descripciones de texto y ejemplos visuales de consulta, lo que resuelve problemas de información de grano fino y ambigüedad de categorías.
Su diseño incluye un módulo de percepción de compuertas y una estrategia de predicción de lenguaje enmascarado condicionada a la visión, lo que permite consultas multimodales. Los experimentos demostraron el excelente rendimiento de MQ-Det en el conjunto de datos de referencia LVIS, especialmente una mejora del 7% en la precisión GLIP. Este modelo aporta una nueva vitalidad al campo de la detección de objetos multimodales y tiene un amplio potencial de aplicación.