Lors de NeurIPS 2023, MQ-Det, un grand modèle multimodal, a fait ses débuts, réalisant une amélioration significative de 7,8 % de la précision de la détection d'objets. L'originalité de MQ-Det réside dans la fusion de descriptions textuelles et de requêtes d'exemples visuels, ce qui permet de résoudre les problèmes liés aux informations granulaires et aux ambiguïtés de catégories.
Sa conception comprend un module de perception contrôlée et une stratégie de prédiction de langage masqué conditionnée par la vision, prenant en charge les requêtes multimodales. Les expériences ont démontré les performances exceptionnelles de MQ-Det sur l'ensemble de données de référence LVIS, notamment une amélioration de 7 % de la précision GLIP. Ce modèle apporte un souffle nouveau au domaine de la détection d'objets multimodale et présente de vastes perspectives d'application.