Alternatives Open Source à GPT-4V

Des universités prestigieuses telles que Tsinghua et Zhejiang ont contribué au développement d'alternatives open source à GPT-4V, donnant naissance en Chine à une série de modèles de vision par ordinateur aux performances exceptionnelles. Parmi ceux-ci, LLaVA, CogAgent et BakLLaVA ont retenu l'attention.

LLaVA affiche des capacités proches de celles de GPT-4 en matière de chat visuel et de questions-réponses basées sur le raisonnement. CogAgent, quant à lui, est un modèle de langage visuel open source amélioré à partir de CogVLM. Enfin, BakLLaVA est un modèle de base Mistral 7B amélioré avec l'architecture LLaVA 1.5, offrant de meilleures performances et une meilleure aptitude à la commercialisation.

Ces modèles de vision par ordinateur open source possèdent un potentiel énorme dans le domaine du traitement d'images.