VCoder

VCoder est un modèle de perception visuelle améliorant les performances des grands modèles de langage multimodaux sur les tâches de vision au niveau des objets.

Produit OrdinaireImageVision par ordinateurTraitement du langage naturel
VCoder est un adaptateur qui améliore les performances des grands modèles de langage multimodaux sur les tâches de vision au niveau des objets en utilisant des modalités perceptives auxiliaires comme entrée de contrôle. VCoder LLaVA est basé sur LLaVA-1.5. VCoder ne peaufine pas les paramètres de LLaVA-1.5, ses performances sur les benchmarks de questions-réponses générales sont donc identiques à celles de LLaVA-1.5. VCoder a été évalué sur l'ensemble de données COST et a obtenu de bons résultats sur les tâches de segmentation sémantique, d'instance et panoramique. Les auteurs ont également publié les résultats de détection du modèle et le modèle pré-entraîné.
Ouvrir le site Web

VCoder Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

VCoder Tendance des visites

VCoder Distribution géographique des visites

VCoder Sources de trafic

VCoder Alternatives