Honeybee es un predictor de mejora local para modelos de lenguaje multimodales. Mejora el rendimiento de los modelos de lenguaje multimodales en diversas tareas posteriores, como la inferencia del lenguaje natural y las preguntas y respuestas visuales. La ventaja de Honeybee radica en la introducción de un mecanismo de percepción local, que permite modelar mejor las relaciones de dependencia entre las muestras de entrada, mejorando así la capacidad de inferencia y respuesta a preguntas de los modelos de lenguaje multimodales.