LLaVA 1.5 : Un Modèle Linguistique Multimodal Open Source

Cet article présente LLaVA 1.5, un modèle linguistique multimodal en développement au sein de la communauté open source. Intégrant plusieurs composants d'IA générative et optimisé pour une grande efficacité de calcul, il atteint une grande précision sur de nombreuses tâches.

LLaVA 1.5 utilise CLIP comme encodeur visuel et le modèle linguistique open source LLaMA, connectés via un connecteur MLP. Avec seulement environ 600 000 exemples d'entraînement et une journée d'apprentissage, il surpasse d'autres modèles open source sur les benchmarks multimodaux.

Bien que LLaVA 1.5 présente des limitations d'utilisation, il représente une avancée majeure de l'innovation au sein de la communauté open source et promet de stimuler le développement de grands modèles open source, offrant aux utilisateurs des outils d'IA générative plus accessibles et efficaces.