MiniGPT4-Vidéo
Modèle vidéo IA capable de comprendre des vidéos complexes et de générer des poèmes et des légendes.
Produit OrdinaireVidéoCompréhension vidéoQuestion-Réponse vidéo
MiniGPT4-Vidéo est un grand modèle multimodal conçu pour la compréhension vidéo. Il traite les données visuelles temporelles et textuelles, et peut générer des titres, des slogans publicitaires et répondre à des questions sur des vidéos. Basé sur MiniGPT-v2 et utilisant l'architecture visuelle EVA-CLIP, il a été entraîné en plusieurs étapes, incluant un pré-entraînement à grande échelle vidéo-texte et un réglage fin pour la réponse aux questions sur les vidéos. Il a obtenu des améliorations significatives sur les benchmarks MSVD, MSRVTT, TGIF et TVQA. Le prix n'est pas encore connu.
MiniGPT4-Vidéo Dernière situation du trafic
Nombre total de visites mensuelles
1900
Taux de rebond
58.75%
Nombre moyen de pages par visite
1.3
Durée moyenne de la visite
00:00:01