Florence-2-large

Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Produto ComumImagemModelo VisualAprendizado Multitarefa

Florence-2-large é um modelo de base visual avançado desenvolvido pela Microsoft, que utiliza um método baseado em prompts para lidar com uma ampla gama de tarefas de visão e visão-linguagem. O modelo consegue interpretar prompts de texto simples para executar tarefas como descrição de imagens, detecção e segmentação de objetos. Ele utiliza o conjunto de dados FLD-5B, contendo 5,4 bilhões de imagens com 5,4 bilhões de anotações, e domina o aprendizado de múltiplas tarefas. Sua arquitetura sequencial permite um desempenho excelente em cenários de zero-shot e fine-tuning, provando ser um modelo de base visual competitivo.

Abrir Site

Florence-2-large Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

Florence-2-large Tendência de Visitas

Florence-2-large Distribuição Geográfica das Visitas

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Florence-2-large

Florence-2-large Situação do Tráfego Mais Recente

Florence-2-large Tendência de Visitas

Florence-2-large Distribuição Geográfica das Visitas

Florence-2-large Fontes de Tráfego

Florence-2-large Alternativas

Florence-2-large — Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Florence-2 — Um modelo de base unificado para tarefas de visão.

Aya Vision 32B — Aya Vision 32B é um modelo de linguagem visual multilíngue, adequado para OCR, descrição de imagens, raciocínio visual e outras finalidades.

MILS — LLMs podem ver e ouvir sem nenhum treinamento prévio.

SmolVLM-500M-Instruct — SmolVLM-500M é um modelo multimodal leve que processa entradas de imagem e texto e gera saídas de texto.

PaliGemma2-3b-pt-224 — PaliGemma 2 é um poderoso modelo de linguagem e visão, que suporta tarefas de processamento de imagem e texto em vários idiomas.

PaliGemma2-3b-pt-448 — PaliGemma 2 é um poderoso modelo de linguagem visual que suporta diversas tarefas de linguagem visual.

InternVL2_5-26B-MPO — Modelo de linguagem grande multimodal que aprimora a interação entre visão e linguagem.

Gerador Inteligente de Descrições de Imagens — Utiliza tecnologia inteligente para gerar descrições contextualmente relevantes para imagens.

InternVL2_5-1B-MPO — Modelo de linguagem grande multimodal que aprimora a compreensão integrada de visão e linguagem.

PicWordify — Automatiza a geração de texto descritivo para imagens de sites

Incorporação de Documentos — Utiliza tecnologia de IA composta para processar documentos em linha, superando a diferença de modalidades.

joy-caption-batch — Ferramenta para gerar títulos descritivos em lote para arquivos de imagem.

AI Describe Pictures — Tecnologia de IA para geração rápida de descrições de imagens

DescreverImagem — Gerador inteligente de descrições de imagens, com 50 usos gratuitos por dia.

image-textualization — Geração automática de descrições de imagens ricas e detalhadas.

LongVA — Modelo de conversão de contexto longo de linguagem para visão

Florence-2-large-ft — Modelo básico de visão avançado, compatível com diversas tarefas de visão e visão-linguagem.

Florence-2-base — Modelo de base visual avançado, que suporta diversas tarefas de visão e visão-linguagem.

Page Assist - Uma Interface Web para Modelos de IA Locais — Oferece assistência à navegação web utilizando modelos de IA locais.

Interrogador CLIP — Ferramenta de análise e descrição de imagens

idefics-80b — Modelo multimodal universal, utilizável para perguntas e respostas, descrição de imagens e outras tarefas.

AI Describe Picture — Plataforma de descrição de imagens impulsionada por IA

VMamba — Modelo de espaço de estados visual, complexidade linear, percepção global

AIM — Pré-treinamento de Modelo de Imagem Autorregressivo em Grande Escala

GenAlt - Gerador de Texto Alternativo de IA — Gera texto alternativo descritivo para imagens para pessoas que precisam.

Legendas de Imagens com IA — Geração inteligente de legendas para imagens com IA

Legendas Felix Link — Descrição de imagens com IA

Emu Edit — Edição de imagem precisa, atendendo a múltiplas necessidades em um só lugar.

CogVLM — Modelo de linguagem visual de código aberto poderoso