Florence-2

Um modelo de base unificado para tarefas de visão.

Novo Produto PremiumProdutividadeModelo visualAprendizado multitarefa

Florence-2 é um novo modelo de base visual que, por meio de uma representação unificada baseada em prompts, consegue lidar com diversas tarefas de visão computacional e visão-linguagem. Ele foi projetado para receber prompts de texto como instruções de tarefas e gerar resultados esperados na forma de texto, sejam descrições de imagens, detecção de objetos, localização ou segmentação. Essa configuração de aprendizado multitarefa requer dados anotados em larga escala e de alta qualidade. Para isso, desenvolvemos conjuntamente o FLD-5B, contendo 5,4 bilhões de anotações visuais abrangentes, cobrindo 126 milhões de imagens, utilizando uma estratégia iterativa de anotação automática de imagens e refinamento do modelo. Adotamos uma estrutura sequencial para treinar o Florence-2, a fim de executar tarefas visuais diversificadas e abrangentes. Avaliações extensivas demonstram que o Florence-2 é um forte competidor entre os modelos de base visuais, com capacidades sem precedentes de zero-shot e few-shot.

Entrada de instruções de tarefas na forma de prompts de texto.
Geração de resultados esperados em formato de texto
aplicável a diversas tarefas visuais.
Suporte do conjunto de dados FLD-5B em larga escala e alta qualidade.
Estratégia iterativa de anotação automática de imagens e refinamento do modelo.
Estrutura sequencial
melhorando a diversidade e abrangência das tarefas.
Capacidades zero-shot e few-shot
adaptando-se a tarefas de diferentes complexidades.

O modelo Florence-2 é adequado para pesquisadores e desenvolvedores que precisam lidar com tarefas visuais complexas
especialmente nas áreas de descrição de imagens
detecção de objetos
localização visual e segmentação. Sua capacidade de aprendizado multitarefa e seu poderoso processamento de dados tornam-no uma ferramenta importante para impulsionar a pesquisa em visão computacional e visão-linguagem.

Na tarefa de descrição de imagens
o Florence-2 consegue gerar textos descritivos precisos com base na imagem de entrada.
Na tarefa de detecção de objetos
o Florence-2 pode identificar vários objetos em uma imagem e relatar suas posições em formato de texto.
Na tarefa de localização visual

Passo 1: Acesse a página do modelo Florence-2 no Hugging Face.
Passo 2: Selecione a versão do modelo adequada às suas necessidades
como a versão básica ou a versão grande.
Passo 3: Leia a documentação do modelo para entender como usar prompts de texto para orientar o modelo na execução de tarefas.
Passo 4: Prepare seus dados de entrada

Abrir Site

Florence-2 Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

Florence-2 Tendência de Visitas

Florence-2 Distribuição Geográfica das Visitas

Florence-2 Fontes de Tráfego

Florence-2 Alternativas

Florence-2 — Um modelo de base unificado para tarefas de visão.

Produtividade

•Modelo visual•Aprendizado multitarefa

354

Florence-2-large — Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Imagem

•Modelo Visual•Aprendizado Multitarefa

318

Incorporação de Documentos — Utiliza tecnologia de IA composta para processar documentos em linha, superando a diferença de modalidades.

Produtividade

•LLM•Modelo Visual

126

LongVA — Modelo de conversão de contexto longo de linguagem para visão

Imagem

•Contexto Longo•Modelo Visual

138

Florence-2-large-ft — Modelo básico de visão avançado, compatível com diversas tarefas de visão e visão-linguagem.

Imagem

•Processamento de imagens•Processamento de linguagem natural

558

Florence-2-base — Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Imagem

•Modelo visual•Aprendizado de múltiplas tarefas

348

Page Assist - Uma Interface Web para Modelos de IA Locais — Oferece assistência à navegação web utilizando modelos de IA locais.

Produtividade

•Modelo de IA•Barra Lateral

1560

VMamba — Modelo de espaço de estados visual, complexidade linear, percepção global

Imagem

•Modelo visual•Processamento de imagens

348

AIM — Pré-treinamento de Modelo de Imagem Autorregressivo em Grande Escala

Imagem

•Modelo visual•Pré-treinamento autorregressivo

408

Emu Edit — Edição de imagem precisa, atendendo a múltiplas necessidades em um só lugar.

Imagem

•Edição de imagem•Aprendizado multitarefa

1554

Best AI Websites & Tools

Florence-2

Florence-2 Situação do Tráfego Mais Recente

Florence-2 Tendência de Visitas

Florence-2 Distribuição Geográfica das Visitas

Florence-2 Fontes de Tráfego

Florence-2 Alternativas

Florence-2 — Um modelo de base unificado para tarefas de visão.

Florence-2-large — Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Incorporação de Documentos — Utiliza tecnologia de IA composta para processar documentos em linha, superando a diferença de modalidades.

LongVA — Modelo de conversão de contexto longo de linguagem para visão

Florence-2-large-ft — Modelo básico de visão avançado, compatível com diversas tarefas de visão e visão-linguagem.

Florence-2-base — Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Page Assist - Uma Interface Web para Modelos de IA Locais — Oferece assistência à navegação web utilizando modelos de IA locais.

VMamba — Modelo de espaço de estados visual, complexidade linear, percepção global

AIM — Pré-treinamento de Modelo de Imagem Autorregressivo em Grande Escala

Emu Edit — Edição de imagem precisa, atendendo a múltiplas necessidades em um só lugar.