LLaVA-Video est un grand modèle multi-modal (LMM) axé sur l'optimisation des instructions vidéo. Il résout le problème de l'acquisition de grandes quantités de données brutes de haute qualité à partir du Web grâce à la création d'un ensemble de données synthétiques de haute qualité, LLaVA-Video-178K. Cet ensemble de données comprend des tâches telles que des descriptions vidéo détaillées, des questions-réponses ouvertes et des questions-réponses à choix multiples, visant à améliorer la capacité de compréhension et de raisonnement des modèles de langage vidéo. Le modèle LLaVA-Video a démontré d'excellentes performances sur plusieurs benchmarks vidéo, prouvant l'efficacité de son ensemble de données.