LLaVA-Video
Recherche sur l'optimisation des instructions vidéo et les données de synthèse
Produit OrdinaireVidéoCompréhension vidéoApprentissage multi-modal
LLaVA-Video est un grand modèle multi-modal (LMM) axé sur l'optimisation des instructions vidéo. Il résout le problème de l'acquisition de grandes quantités de données brutes de haute qualité à partir du Web grâce à la création d'un ensemble de données synthétiques de haute qualité, LLaVA-Video-178K. Cet ensemble de données comprend des tâches telles que des descriptions vidéo détaillées, des questions-réponses ouvertes et des questions-réponses à choix multiples, visant à améliorer la capacité de compréhension et de raisonnement des modèles de langage vidéo. Le modèle LLaVA-Video a démontré d'excellentes performances sur plusieurs benchmarks vidéo, prouvant l'efficacité de son ensemble de données.
LLaVA-Video Dernière situation du trafic
Nombre total de visites mensuelles
80956
Taux de rebond
52.28%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:34