PixelLLM
Modèle linguistique d'alignement de pixels
Produit OrdinaireImageLocalisation d'imageModèle linguistique
PixelLLM est un modèle vision-langage conçu pour les tâches de localisation d'image. Ce modèle peut générer une description textuelle à partir d'une position d'entrée, ou générer des coordonnées de pixels pour une localisation précise à partir d'une description textuelle. Pré-entraîné sur l'ensemble de données Localized Narrative, le modèle apprend la correspondance entre les mots et les pixels de l'image. PixelLLM peut être appliqué à diverses tâches de localisation d'image, notamment la description conditionnelle à la localisation, la localisation par indication et la description dense d'objets, atteignant des performances de pointe sur des ensembles de données tels que RefCOCO et Visual Genome.
PixelLLM Dernière situation du trafic
Nombre total de visites mensuelles
963
Taux de rebond
64.77%
Nombre moyen de pages par visite
1.4
Durée moyenne de la visite
00:00:06