mPLUG-Owl3
Modèle linguistique de grande taille multimodale, capable de comprendre de longues séquences d'images.
Produit OrdinaireImageMultimodalCompréhension d'images
mPLUG-Owl3 est un modèle linguistique de grande taille multimodale, spécialisé dans la compréhension de longues séquences d'images. Il peut apprendre des connaissances à partir d'un système de recherche, interagir avec les utilisateurs via un dialogue alternant texte et image, regarder de longues vidéos et mémoriser leurs détails. Le code source et les poids du modèle sont disponibles sur Hugging Face, et il convient à des scénarios tels que la question-réponse visuelle, les tests de référence multimodaux et les tests de référence vidéo.
mPLUG-Owl3 Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34