PPLLaVA
Modèle d'implémentation GPU pour la compréhension de séquences vidéo
Produit OrdinaireVidéoCompréhension vidéoGrand modèle linguistique
PPLLaVA est un modèle linguistique vidéo large et efficace qui combine l'alignement visuel précis des invites, la compression des jetons visuels par mise en commun de style convolutionnel des instructions utilisateur et l'extension du contexte CLIP. Ce modèle établit de nouveaux résultats de pointe sur les ensembles de données VideoMME, MVBench, VideoChatGPT Bench et VideoQA Bench, avec un débit amélioré de 8 fois en utilisant seulement 1024 jetons visuels.
PPLLaVA Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34