Tarsier é uma série de modelos de linguagem de vídeo em larga escala desenvolvidos pela equipe de pesquisa da ByteDance, com o objetivo de gerar descrições de vídeo de alta qualidade e possuir uma forte capacidade de compreensão de vídeo. O modelo melhora significativamente a precisão e os detalhes da descrição de vídeo através de uma estratégia de treinamento em duas etapas (pré-treinamento multitarefa e ajuste fino de instruções multigranulares). Seus principais benefícios incluem a capacidade de descrever vídeos com alta precisão, a capacidade de entender conteúdo de vídeo complexo e resultados SOTA (State-of-the-Art) em vários testes de benchmark de compreensão de vídeo. O Tarsier visa melhorar as deficiências dos modelos de linguagem de vídeo existentes em termos de detalhes e precisão da descrição, atingindo um novo nível no campo da descrição de vídeo através do treinamento em dados de alta qualidade em larga escala e métodos de treinamento inovadores. Atualmente, o modelo não tem preço definido, sendo direcionado principalmente para pesquisa acadêmica e aplicações comerciais, adequado para cenários que exigem compreensão e geração de conteúdo de vídeo de alta qualidade.