PixelLLM
Modelo de linguagem com alinhamento de pixels
Produto ComumImagemLocalização de imagemModelo de linguagem
PixelLLM é um modelo de linguagem visual para tarefas de localização em imagens. O modelo pode gerar descrições textuais com base na localização de entrada, ou gerar coordenadas de pixels para localização densa com base em texto de entrada. Através de pré-treinamento no conjunto de dados Localized Narrative, o modelo aprendeu o relacionamento de alinhamento entre palavras e pixels de imagem. O PixelLLM pode ser aplicado a diversas tarefas de localização de imagem, incluindo localização por indicação, descrição condicionada à localização e descrição densa de objetos, alcançando desempenho de ponta em conjuntos de dados como RefCOCO e Visual Genome.
PixelLLM Situação do Tráfego Mais Recente
Total de Visitas Mensais
963
Taxa de Rejeição
64.77%
Média de Páginas por Visita
1.4
Duração Média da Visita
00:00:06