Tarsier es una serie de modelos de lenguaje de video a gran escala desarrollados por el equipo de investigación de ByteDance, diseñados para generar descripciones de video de alta calidad y poseer una potente capacidad de comprensión de video. El modelo, mediante una estrategia de entrenamiento de dos fases (preentrenamiento multitarea y ajuste fino de instrucciones multigrano), mejora significativamente la precisión y el detalle de las descripciones de video. Sus principales ventajas incluyen una alta precisión en la descripción de videos, la capacidad de comprender contenido de video complejo y los resultados SOTA (State-of-the-Art) obtenidos en varias pruebas de referencia de comprensión de video. Tarsier se basa en la mejora de las deficiencias de los modelos de lenguaje de video existentes en cuanto a detalles y precisión de la descripción; mediante el entrenamiento con datos de alta calidad a gran escala y métodos de entrenamiento innovadores, ha alcanzado nuevas cotas en el campo de la descripción de video. Actualmente, el modelo no tiene un precio definido, se orienta principalmente a la investigación académica y aplicaciones comerciales, y es adecuado para escenarios que requieren una comprensión y generación de contenido de video de alta calidad.