LLaVA-OneVision
Modèle de transformation performant pour les tâches de vision multimodale
Produit OrdinaireImageMultimodalReconnaissance visuelle
LLaVA-OneVision est un grand modèle multi-modal (LMM) développé par ByteDance en collaboration avec plusieurs universités. Il repousse les limites des performances des grands modèles multimodaux ouverts dans les scénarios d'images uniques, multiples et vidéo. La conception du modèle permet un apprentissage par transfert puissant entre différents modes/scénarios, démontrant de nouvelles capacités de synthèse, notamment en matière de compréhension vidéo et de capacité inter-scénarios, comme illustré par la conversion de tâches image-vers-vidéo.
LLaVA-OneVision Dernière situation du trafic
Nombre total de visites mensuelles
80956
Taux de rebond
52.28%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:34