PixelLLM
Modelo de lenguaje alineado a píxeles
Producto ComúnImagenLocalización de imágenesModelo de lenguaje
PixelLLM es un modelo de lenguaje visual diseñado para tareas de localización en imágenes. El modelo puede generar descripciones textuales a partir de coordenadas de entrada, y también puede generar coordenadas de píxeles para una localización precisa a partir de texto de entrada. Preentrenado en el conjunto de datos Localized Narrative, el modelo aprende la alineación entre palabras y píxeles de imagen. PixelLLM se puede aplicar a diversas tareas de localización de imágenes, incluyendo la descripción condicionada a la posición, la localización por indicación y la descripción densa de objetos, alcanzando un rendimiento de vanguardia en conjuntos de datos como RefCOCO y Visual Genome.
PixelLLM Situación del tráfico más reciente
Total de visitas mensuales
963
Tasa de rebote
64.77%
Páginas promedio por visita
1.4
Duración promedio de la visita
00:00:06