VCoder
VCoder est un modèle de perception visuelle améliorant les performances des grands modèles de langage multimodaux sur les tâches de vision au niveau des objets.
Produit OrdinaireImageVision par ordinateurTraitement du langage naturel
VCoder est un adaptateur qui améliore les performances des grands modèles de langage multimodaux sur les tâches de vision au niveau des objets en utilisant des modalités perceptives auxiliaires comme entrée de contrôle. VCoder LLaVA est basé sur LLaVA-1.5. VCoder ne peaufine pas les paramètres de LLaVA-1.5, ses performances sur les benchmarks de questions-réponses générales sont donc identiques à celles de LLaVA-1.5. VCoder a été évalué sur l'ensemble de données COST et a obtenu de bons résultats sur les tâches de segmentation sémantique, d'instance et panoramique. Les auteurs ont également publié les résultats de détection du modèle et le modèle pré-entraîné.
VCoder Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34