LLaVA-NeXT
Modèle multi-modal de grande envergure, traitant des données multi-images, vidéo et 3D.
Produit OrdinaireImageMultimodalReconnaissance d'images
LLaVA-NeXT est un grand modèle multi-modal qui traite les données multi-images, vidéo, 3D et mono-image via un format de données entrelacé unifié. Il démontre une capacité d'entraînement conjoint sur différentes modalités de données visuelles. Le modèle a obtenu des résultats de pointe sur les tests de référence multi-images et a amélioré les performances des tâches précédemment effectuées individuellement, ou les a maintenues, dans différents scénarios grâce à un mélange de données approprié.
LLaVA-NeXT Dernière situation du trafic
Nombre total de visites mensuelles
80956
Taux de rebond
52.28%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:34