LLaVA-Video

Recherche sur l'optimisation des instructions vidéo et les données de synthèse

Produit OrdinaireVidéoCompréhension vidéoApprentissage multi-modal
LLaVA-Video est un grand modèle multi-modal (LMM) axé sur l'optimisation des instructions vidéo. Il résout le problème de l'acquisition de grandes quantités de données brutes de haute qualité à partir du Web grâce à la création d'un ensemble de données synthétiques de haute qualité, LLaVA-Video-178K. Cet ensemble de données comprend des tâches telles que des descriptions vidéo détaillées, des questions-réponses ouvertes et des questions-réponses à choix multiples, visant à améliorer la capacité de compréhension et de raisonnement des modèles de langage vidéo. Le modèle LLaVA-Video a démontré d'excellentes performances sur plusieurs benchmarks vidéo, prouvant l'efficacité de son ensemble de données.
Ouvrir le site Web

LLaVA-Video Dernière situation du trafic

Nombre total de visites mensuelles

80956

Taux de rebond

52.28%

Nombre moyen de pages par visite

1.2

Durée moyenne de la visite

00:00:34

LLaVA-Video Tendance des visites

LLaVA-Video Distribution géographique des visites

LLaVA-Video Sources de trafic

LLaVA-Video Alternatives