Florence-2-large é um modelo de base visual avançado desenvolvido pela Microsoft, que utiliza um método baseado em prompts para lidar com uma ampla gama de tarefas de visão e visão-linguagem. O modelo consegue interpretar prompts de texto simples para executar tarefas como descrição de imagens, detecção e segmentação de objetos. Ele utiliza o conjunto de dados FLD-5B, contendo 5,4 bilhões de imagens com 5,4 bilhões de anotações, e domina o aprendizado de múltiplas tarefas. Sua arquitetura sequencial permite um desempenho excelente em cenários de zero-shot e fine-tuning, provando ser um modelo de base visual competitivo.