La série ShareGPT4Video vise à améliorer la compréhension vidéo des grands modèles vidéo-langagiers (LVLMs) et la génération vidéo des modèles texte-vidéo (T2VMs) grâce à des sous-titres denses et précis. Cette série comprend : 1) ShareGPT4Video, 40 000 sous-titres vidéo denses annotés par GPT4V, développés grâce à des stratégies de filtrage et d'annotation de données soigneusement conçues. 2) ShareCaptioner-Video, un modèle de sous-titrage vidéo efficace et puissant pour n'importe quelle vidéo, formé sur 4,8 millions de vidéos esthétiques de haute qualité annotées. 3) ShareGPT4Video-8B, un LVLM simple mais performant qui a atteint les meilleures performances sur trois benchmarks vidéo de pointe.