Florence-2
Un modelo base unificado para tareas de visión.
Nuevo Producto PremiumProductividadModelo de visiónAprendizaje multitarea
Florence-2 es un nuevo modelo base de visión que, mediante una representación unificada basada en indicaciones, puede manejar diversas tareas de visión artificial y visión-lenguaje. Está diseñado para aceptar indicaciones de texto como instrucciones de tareas y generar el resultado esperado en formato de texto, ya sea descripción de imágenes, detección de objetos, localización o segmentación. Esta configuración de aprendizaje multitarea requiere datos anotados a gran escala y de alta calidad. Para ello, hemos desarrollado conjuntamente FLD-5B, que contiene 5.400 millones de anotaciones visuales integrales que abarcan 126 millones de imágenes, utilizando una estrategia iterativa de anotación automática de imágenes y refinamiento del modelo. Hemos adoptado una arquitectura de secuencia a secuencia para entrenar Florence-2 con el fin de ejecutar tareas de visión diversas y completas. Una evaluación exhaustiva demuestra que Florence-2 es un potente competidor entre los modelos base de visión, con una capacidad sin precedentes de cero-shot y ajuste fino.
Florence-2 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44