MG-LLaVA
Modèle linguistique multi-modal (MLLM) innovant optimisé par instructions visuelles multi-granularité
Produit OrdinaireProgrammationMachine LearningTraitement d'images
MG-LLaVA est un modèle linguistique multi-modal (MLLM) améliorant les capacités de traitement visuel des machines. Il intègre un processus visuel multi-granularité, incluant des caractéristiques à basse, haute résolution et centrées sur les objets. Un encodeur visuel haute résolution supplémentaire est proposé pour capturer les détails, et est fusionné avec les caractéristiques visuelles de base via un réseau de fusion Conv-Gate. De plus, les caractéristiques au niveau des objets, intégrées via les bounding boxes détectées par un détecteur hors ligne, permettent d'affiner davantage la capacité de reconnaissance d'objets du modèle. MG-LLaVA est uniquement entraîné sur des données multimodales publiquement disponibles par optimisation par instructions, démontrant d'excellentes compétences perceptives.
MG-LLaVA Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34