Florence-2-large-ft es un modelo base visual avanzado desarrollado por Microsoft que utiliza un método basado en indicaciones para abordar una amplia gama de tareas visuales y de visión-lenguaje. El modelo puede realizar tareas como descripción de imágenes, detección y segmentación de objetos mediante indicaciones de texto sencillas. Aprovecha el conjunto de datos FLD-5B, que contiene 5.400 millones de anotaciones que abarcan 126 millones de imágenes, para lograr el aprendizaje multitarea. Su arquitectura de secuencia a secuencia le permite un rendimiento excepcional tanto en entornos de cero ejemplos como de ajuste fino, lo que demuestra que es un modelo base visual competitivo.