PixelLLM

Modèle linguistique d'alignement de pixels

Produit OrdinaireImageLocalisation d'imageModèle linguistique
PixelLLM est un modèle vision-langage conçu pour les tâches de localisation d'image. Ce modèle peut générer une description textuelle à partir d'une position d'entrée, ou générer des coordonnées de pixels pour une localisation précise à partir d'une description textuelle. Pré-entraîné sur l'ensemble de données Localized Narrative, le modèle apprend la correspondance entre les mots et les pixels de l'image. PixelLLM peut être appliqué à diverses tâches de localisation d'image, notamment la description conditionnelle à la localisation, la localisation par indication et la description dense d'objets, atteignant des performances de pointe sur des ensembles de données tels que RefCOCO et Visual Genome.
Ouvrir le site Web

PixelLLM Dernière situation du trafic

Nombre total de visites mensuelles

963

Taux de rebond

64.77%

Nombre moyen de pages par visite

1.4

Durée moyenne de la visite

00:00:06

PixelLLM Tendance des visites

PixelLLM Distribution géographique des visites

PixelLLM Sources de trafic

PixelLLM Alternatives