PixelLLM

Modelo de linguagem com alinhamento de pixels

Produto ComumImagemLocalização de imagemModelo de linguagem
PixelLLM é um modelo de linguagem visual para tarefas de localização em imagens. O modelo pode gerar descrições textuais com base na localização de entrada, ou gerar coordenadas de pixels para localização densa com base em texto de entrada. Através de pré-treinamento no conjunto de dados Localized Narrative, o modelo aprendeu o relacionamento de alinhamento entre palavras e pixels de imagem. O PixelLLM pode ser aplicado a diversas tarefas de localização de imagem, incluindo localização por indicação, descrição condicionada à localização e descrição densa de objetos, alcançando desempenho de ponta em conjuntos de dados como RefCOCO e Visual Genome.
Abrir Site

PixelLLM Situação do Tráfego Mais Recente

Total de Visitas Mensais

963

Taxa de Rejeição

64.77%

Média de Páginas por Visita

1.4

Duração Média da Visita

00:00:06

PixelLLM Tendência de Visitas

PixelLLM Distribuição Geográfica das Visitas

PixelLLM Fontes de Tráfego

PixelLLM Alternativas