Tarsier

Tarsier est un grand modèle linguistique vidéo développé par ByteDance pour générer des descriptions vidéo de haute qualité.

Produit OrdinaireVidéoDescription vidéoCompréhension vidéo
Tarsier est une série de modèles linguistiques vidéo à grande échelle développés par l'équipe de recherche de ByteDance. Ils sont conçus pour générer des descriptions vidéo de haute qualité et possèdent de puissantes capacités de compréhension vidéo. Le modèle améliore considérablement la précision et le détail des descriptions vidéo grâce à une stratégie d'entraînement en deux phases (pré-entraînement multitâche et réglage fin des instructions multigranulaires). Ses principaux avantages incluent une capacité de description vidéo de haute précision, une compréhension du contenu vidéo complexe et des résultats SOTA (State-of-the-Art) obtenus dans plusieurs tests de référence de compréhension vidéo. Tarsier vise à améliorer les lacunes des modèles vidéo-linguistiques existants en termes de détails et de précision des descriptions. Grâce à un entraînement sur des données massives de haute qualité et à des méthodes d'entraînement innovantes, il atteint de nouveaux sommets dans le domaine de la description vidéo. Le modèle n'a pas de prix fixe pour le moment et s'adresse principalement à la recherche académique et aux applications commerciales, il convient aux scénarios nécessitant une compréhension et une génération de contenu vidéo de haute qualité.
Ouvrir le site Web

Tarsier Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

Tarsier Tendance des visites

Tarsier Distribution géographique des visites

Tarsier Sources de trafic

Tarsier Alternatives