Florence-2
Um modelo de base unificado para tarefas de visão.
Novo Produto PremiumProdutividadeModelo visualAprendizado multitarefa
Florence-2 é um novo modelo de base visual que, por meio de uma representação unificada baseada em prompts, consegue lidar com diversas tarefas de visão computacional e visão-linguagem. Ele foi projetado para receber prompts de texto como instruções de tarefas e gerar resultados esperados na forma de texto, sejam descrições de imagens, detecção de objetos, localização ou segmentação. Essa configuração de aprendizado multitarefa requer dados anotados em larga escala e de alta qualidade. Para isso, desenvolvemos conjuntamente o FLD-5B, contendo 5,4 bilhões de anotações visuais abrangentes, cobrindo 126 milhões de imagens, utilizando uma estratégia iterativa de anotação automática de imagens e refinamento do modelo. Adotamos uma estrutura sequencial para treinar o Florence-2, a fim de executar tarefas visuais diversificadas e abrangentes. Avaliações extensivas demonstram que o Florence-2 é um forte competidor entre os modelos de base visuais, com capacidades sem precedentes de zero-shot e few-shot.
Florence-2 Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44