PixelProse est un ensemble de données à grande échelle créé par tomg-group-umd. Il utilise le modèle vision-langage avancé Gemini 1.0 Pro Vision pour générer plus de 16 millions de descriptions d'images détaillées. Cet ensemble de données est crucial pour le développement et l'amélioration des techniques de conversion image-texte, et peut être utilisé pour la génération de descriptions d'images, les questions-réponses visuelles, etc.