Honeybee est un prédicteur d'amélioration locale conçu pour les modèles linguistiques multimodaux. Il améliore les performances de ces modèles sur diverses tâches en aval, telles que le raisonnement en langage naturel et la question-réponse visuelle. L'avantage de Honeybee réside dans l'introduction d'un mécanisme de perception locale, permettant une meilleure modélisation des relations de dépendance entre les échantillons d'entrée, et ainsi renforçant les capacités de raisonnement et de question-réponse des modèles linguistiques multimodaux.