Florence-2

Modèle de base unifié pour les tâches de vision.

Nouveau Produit PremiumProductivitéModèle de visionApprentissage multitâche
Florence-2 est un nouveau modèle de base de vision qui traite diverses tâches de vision par ordinateur et de vision-langage grâce à une représentation unifiée basée sur des invites. Il est conçu pour accepter des invites textuelles comme instructions de tâche et générer des résultats textuels, qu'il s'agisse de descriptions d'images, de détection d'objets, de localisation ou de segmentation. Cette configuration d'apprentissage multitâche nécessite des données annotées à grande échelle et de haute qualité. À cette fin, nous avons conjointement développé FLD-5B, qui contient 5,4 milliards d'annotations visuelles complètes couvrant 126 millions d'images, en utilisant une stratégie itérative d'annotation automatique d'images et d'affinement du modèle. Nous avons adopté une architecture séquence-à-séquence pour entraîner Florence-2 afin d'exécuter des tâches visuelles diversifiées et complètes. Des évaluations approfondies montrent que Florence-2 est un concurrent puissant des modèles de base de vision, avec des capacités sans précédent en termes de zéro-shot et d'adaptation par apprentissage fin.
Ouvrir le site Web

Florence-2 Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

Florence-2 Tendance des visites

Florence-2 Distribution géographique des visites

Florence-2 Sources de trafic

Florence-2 Alternatives