Microsoft vient de publier LLaVA-1.5, un nouveau modèle multi-modal. Ce modèle intègre un connecteur inter-modalités et un ensemble de données académiques pour la question-réponse visuelle, démontrant ainsi son succès dans plusieurs domaines. LLaVA-1.5 atteint non seulement le niveau de performance le plus élevé parmi les modèles open-source, mais il fusionne également plusieurs modules : vision, langage et génération.
Les tests ont montré que les performances de LLaVA-1.5 sont comparables à celles de GPT-4V, ce qui représente une avancée technologique remarquable.