Florence-2
Modèle de base unifié pour les tâches de vision.
Nouveau Produit PremiumProductivitéModèle de visionApprentissage multitâche
Florence-2 est un nouveau modèle de base de vision qui traite diverses tâches de vision par ordinateur et de vision-langage grâce à une représentation unifiée basée sur des invites. Il est conçu pour accepter des invites textuelles comme instructions de tâche et générer des résultats textuels, qu'il s'agisse de descriptions d'images, de détection d'objets, de localisation ou de segmentation. Cette configuration d'apprentissage multitâche nécessite des données annotées à grande échelle et de haute qualité. À cette fin, nous avons conjointement développé FLD-5B, qui contient 5,4 milliards d'annotations visuelles complètes couvrant 126 millions d'images, en utilisant une stratégie itérative d'annotation automatique d'images et d'affinement du modèle. Nous avons adopté une architecture séquence-à-séquence pour entraîner Florence-2 afin d'exécuter des tâches visuelles diversifiées et complètes. Des évaluations approfondies montrent que Florence-2 est un concurrent puissant des modèles de base de vision, avec des capacités sans précédent en termes de zéro-shot et d'adaptation par apprentissage fin.
Florence-2 Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44