Honeybee é um preditor de aumento de localidade aplicável a modelos de linguagem multimodais. Ele pode melhorar o desempenho de modelos de linguagem multimodais em diferentes tarefas a jusante, como raciocínio de linguagem natural e perguntas e respostas visuais. A vantagem do Honeybee reside na introdução de um mecanismo de percepção de localidade, que pode modelar melhor as relações de dependência entre amostras de entrada, aumentando assim a capacidade de raciocínio e resposta a perguntas dos modelos de linguagem multimodais.