LLaVA-OneVision

Modèle de transformation performant pour les tâches de vision multimodale

Produit OrdinaireImageMultimodalReconnaissance visuelle
LLaVA-OneVision est un grand modèle multi-modal (LMM) développé par ByteDance en collaboration avec plusieurs universités. Il repousse les limites des performances des grands modèles multimodaux ouverts dans les scénarios d'images uniques, multiples et vidéo. La conception du modèle permet un apprentissage par transfert puissant entre différents modes/scénarios, démontrant de nouvelles capacités de synthèse, notamment en matière de compréhension vidéo et de capacité inter-scénarios, comme illustré par la conversion de tâches image-vers-vidéo.
Ouvrir le site Web

LLaVA-OneVision Dernière situation du trafic

Nombre total de visites mensuelles

80956

Taux de rebond

52.28%

Nombre moyen de pages par visite

1.2

Durée moyenne de la visite

00:00:34

LLaVA-OneVision Tendance des visites

LLaVA-OneVision Distribution géographique des visites

LLaVA-OneVision Sources de trafic

LLaVA-OneVision Alternatives