mPLUG-Owl3

Modèle linguistique de grande taille multimodale, capable de comprendre de longues séquences d'images.

Produit OrdinaireImageMultimodalCompréhension d'images
mPLUG-Owl3 est un modèle linguistique de grande taille multimodale, spécialisé dans la compréhension de longues séquences d'images. Il peut apprendre des connaissances à partir d'un système de recherche, interagir avec les utilisateurs via un dialogue alternant texte et image, regarder de longues vidéos et mémoriser leurs détails. Le code source et les poids du modèle sont disponibles sur Hugging Face, et il convient à des scénarios tels que la question-réponse visuelle, les tests de référence multimodaux et les tests de référence vidéo.
Ouvrir le site Web

mPLUG-Owl3 Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

mPLUG-Owl3 Tendance des visites

mPLUG-Owl3 Distribution géographique des visites

mPLUG-Owl3 Sources de trafic

mPLUG-Owl3 Alternatives