LLaVA-Video é um grande modelo multimodal (LMMs) focado no refinamento de instruções de vídeo. Ele resolve o problema da aquisição de grandes quantidades de dados brutos de alta qualidade da internet criando um conjunto de dados sintético de alta qualidade, LLaVA-Video-178K. Este conjunto de dados inclui tarefas como descrições detalhadas de vídeo, perguntas e respostas abertas e perguntas e respostas de múltipla escolha, com o objetivo de melhorar a capacidade de compreensão e raciocínio dos modelos de linguagem de vídeo. O modelo LLaVA-Video obteve excelentes resultados em vários testes de referência de vídeo, demonstrando a eficácia do seu conjunto de dados.