Florence-2

Modèle de base unifié pour les tâches de vision.

Nouveau Produit PremiumProductivitéModèle de visionApprentissage multitâche

Florence-2 est un nouveau modèle de base de vision qui traite diverses tâches de vision par ordinateur et de vision-langage grâce à une représentation unifiée basée sur des invites. Il est conçu pour accepter des invites textuelles comme instructions de tâche et générer des résultats textuels, qu'il s'agisse de descriptions d'images, de détection d'objets, de localisation ou de segmentation. Cette configuration d'apprentissage multitâche nécessite des données annotées à grande échelle et de haute qualité. À cette fin, nous avons conjointement développé FLD-5B, qui contient 5,4 milliards d'annotations visuelles complètes couvrant 126 millions d'images, en utilisant une stratégie itérative d'annotation automatique d'images et d'affinement du modèle. Nous avons adopté une architecture séquence-à-séquence pour entraîner Florence-2 afin d'exécuter des tâches visuelles diversifiées et complètes. Des évaluations approfondies montrent que Florence-2 est un concurrent puissant des modèles de base de vision, avec des capacités sans précédent en termes de zéro-shot et d'adaptation par apprentissage fin.

Entrée sous forme d'invite textuelle servant d'instruction de tâche.
Génération de résultats textuels pour diverses tâches de vision.
Prise en charge par le jeu de données FLD-5B à grande échelle et de haute qualité.
Stratégie itérative d'annotation automatique d'images et d'affinement du modèle.
Architecture séquence-à-séquence améliorant la diversité et l'exhaustivité des tâches.
Capacités zéro-shot et d'adaptation par apprentissage fin pour des tâches de complexités variables.

Le modèle Florence-2 convient aux chercheurs et développeurs qui doivent traiter des tâches de vision complexes
notamment en description d'image
détection d'objets
localisation visuelle et segmentation. Ses capacités d'apprentissage multitâche et de traitement de données performantes en font un outil essentiel pour faire progresser la recherche en vision par ordinateur et en vision-langage.

Dans le cadre d'une tâche de description d'image
Florence-2 peut générer un texte descriptif précis à partir d'une image donnée.
Dans le cadre d'une tâche de détection d'objets
Florence-2 peut identifier plusieurs objets dans une image et signaler leur position sous forme de texte.
Dans le cadre d'une tâche de localisation visuelle

Étape 1 : Accédez à la page Hugging Face du modèle Florence-2.
Étape 2 : Choisissez la version du modèle qui correspond à vos besoins
par exemple la version de base ou la version large.
Étape 3 : Lisez la documentation du modèle pour savoir comment utiliser les invites textuelles pour guider le modèle dans l'exécution des tâches.
Étape 4 : Préparez vos données d'entrée

Ouvrir le site Web

Florence-2 Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

Florence-2 Tendance des visites

Florence-2 Distribution géographique des visites

Florence-2 Sources de trafic

Florence-2 Alternatives

Florence-2 — Modèle de base unifié pour les tâches de vision.

Productivité

•Modèle de vision•Apprentissage multitâche

330

Aya Vision — Aya Vision est un modèle de vision multimodale et multilingue lancé par Cohere, visant à améliorer la compréhension visuelle et textuelle dans des scénarios multilingues.

Sélection Internationale

•Multilingue•Multimodale

InternViT-6B-448px-V2_5 — Modèle de vision amélioré basé sur InternViT-6B-448px-V1-5

Image

•Modèle de vision•Extraction de caractéristiques

162

Sapiens — Modèle de vision par intelligence artificielle avancée, spécialisé dans l'analyse et la compréhension des mouvements humains.

Image

•Intelligence artificielle•Modèle de vision

126

Gemma-2-9b-it — Modèle de génération de texte léger et avancé

Productivité

•Génération de texte•Traitement du langage naturel

186

Florence-2-base-ft — Modèle de base visuel avancé, prenant en charge diverses tâches visuelles et visuelles-linguistiques.

Image

•Traitement d'images•Modèle visuel-linguistique

228

Florence-2-large-ft — Modèle de base visuel avancé prenant en charge plusieurs tâches de vision et de vision-langage.

Image

•Traitement d'image•Traitement du langage naturel

546

Florence-2-base — Modèle de base visuel avancé, prenant en charge diverses tâches de vision et de vision-langage.

Image

•Modèle visuel•Apprentissage multitâche

342

Florence-2-large — Modèle de base visuel avancé, prenant en charge plusieurs tâches visuelles et visuelles-linguistiques.

Image

•Modèle visuel•Apprentissage multitâche

306

StreamSpeech — Traduction vocale en temps réel, un pont pour la communication interlinguistique.

Productivité

•Traduction en temps réel•Apprentissage multitâche

828

llama3v — Modèle de vision SOTA (State Of The Art) basé sur Llama3 8B

Image

•Modèle de vision•Apprentissage multimodal

504

Pile-T5 — Modèle T5 entraîné sur le jeu de données Pile

Programmation

•NLP•Machine Learning

270

VSP-LLM — Cadre combinant le traitement visuel de la parole et les grands modèles de langage.

Programmation

•Traitement visuel de la parole•Grands modèles de langage

2574

InternLM2 — Modèle linguistique préentraîné multilingue

Chat

•Traitement du langage naturel•Modèle linguistique préentraîné

5808

Hasty — Plateforme IA visuelle tout-en-un

Productivité

•IA visuelle•Annotation automatique

168

Best AI Websites & Tools

Florence-2

Florence-2 Dernière situation du trafic

Florence-2 Tendance des visites

Florence-2 Distribution géographique des visites

Florence-2 Sources de trafic

Florence-2 Alternatives

Florence-2 — Modèle de base unifié pour les tâches de vision.

Aya Vision — Aya Vision est un modèle de vision multimodale et multilingue lancé par Cohere, visant à améliorer la compréhension visuelle et textuelle dans des scénarios multilingues.

InternViT-6B-448px-V2_5 — Modèle de vision amélioré basé sur InternViT-6B-448px-V1-5

Sapiens — Modèle de vision par intelligence artificielle avancée, spécialisé dans l'analyse et la compréhension des mouvements humains.

Gemma-2-9b-it — Modèle de génération de texte léger et avancé

Florence-2-base-ft — Modèle de base visuel avancé, prenant en charge diverses tâches visuelles et visuelles-linguistiques.

Florence-2-large-ft — Modèle de base visuel avancé prenant en charge plusieurs tâches de vision et de vision-langage.

Florence-2-base — Modèle de base visuel avancé, prenant en charge diverses tâches de vision et de vision-langage.

Florence-2-large — Modèle de base visuel avancé, prenant en charge plusieurs tâches visuelles et visuelles-linguistiques.

StreamSpeech — Traduction vocale en temps réel, un pont pour la communication interlinguistique.

llama3v — Modèle de vision SOTA (State Of The Art) basé sur Llama3 8B

Pile-T5 — Modèle T5 entraîné sur le jeu de données Pile

VSP-LLM — Cadre combinant le traitement visuel de la parole et les grands modèles de langage.

InternLM2 — Modèle linguistique préentraîné multilingue

Hasty — Plateforme IA visuelle tout-en-un