MG-LLaVA

Modèle linguistique multi-modal (MLLM) innovant optimisé par instructions visuelles multi-granularité

Produit OrdinaireProgrammationMachine LearningTraitement d'images
MG-LLaVA est un modèle linguistique multi-modal (MLLM) améliorant les capacités de traitement visuel des machines. Il intègre un processus visuel multi-granularité, incluant des caractéristiques à basse, haute résolution et centrées sur les objets. Un encodeur visuel haute résolution supplémentaire est proposé pour capturer les détails, et est fusionné avec les caractéristiques visuelles de base via un réseau de fusion Conv-Gate. De plus, les caractéristiques au niveau des objets, intégrées via les bounding boxes détectées par un détecteur hors ligne, permettent d'affiner davantage la capacité de reconnaissance d'objets du modèle. MG-LLaVA est uniquement entraîné sur des données multimodales publiquement disponibles par optimisation par instructions, démontrant d'excellentes compétences perceptives.
Ouvrir le site Web

MG-LLaVA Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

MG-LLaVA Tendance des visites

MG-LLaVA Distribution géographique des visites

MG-LLaVA Sources de trafic

MG-LLaVA Alternatives