PPLLaVA

Modèle d'implémentation GPU pour la compréhension de séquences vidéo

Produit OrdinaireVidéoCompréhension vidéoGrand modèle linguistique
PPLLaVA est un modèle linguistique vidéo large et efficace qui combine l'alignement visuel précis des invites, la compression des jetons visuels par mise en commun de style convolutionnel des instructions utilisateur et l'extension du contexte CLIP. Ce modèle établit de nouveaux résultats de pointe sur les ensembles de données VideoMME, MVBench, VideoChatGPT Bench et VideoQA Bench, avec un débit amélioré de 8 fois en utilisant seulement 1024 jetons visuels.
Ouvrir le site Web

PPLLaVA Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

PPLLaVA Tendance des visites

PPLLaVA Distribution géographique des visites

PPLLaVA Sources de trafic

PPLLaVA Alternatives