PixelLLM

Modelo de lenguaje alineado a píxeles

Producto ComúnImagenLocalización de imágenesModelo de lenguaje
PixelLLM es un modelo de lenguaje visual diseñado para tareas de localización en imágenes. El modelo puede generar descripciones textuales a partir de coordenadas de entrada, y también puede generar coordenadas de píxeles para una localización precisa a partir de texto de entrada. Preentrenado en el conjunto de datos Localized Narrative, el modelo aprende la alineación entre palabras y píxeles de imagen. PixelLLM se puede aplicar a diversas tareas de localización de imágenes, incluyendo la descripción condicionada a la posición, la localización por indicación y la descripción densa de objetos, alcanzando un rendimiento de vanguardia en conjuntos de datos como RefCOCO y Visual Genome.
Abrir sitio web

PixelLLM Situación del tráfico más reciente

Total de visitas mensuales

963

Tasa de rebote

64.77%

Páginas promedio por visita

1.4

Duración promedio de la visita

00:00:06

PixelLLM Tendencia de visitas

PixelLLM Distribución geográfica de las visitas

PixelLLM Fuentes de tráfico

PixelLLM Alternativas