Universitäten wie Tsinghua und Zhejiang haben die Entwicklung offener Quellcode-Alternativen zu GPT-4V vorangetrieben, was zu einer Reihe leistungsstarker, offener visueller Modelle in China geführt hat. Besonders hervorzuheben sind LLaVA, CogAgent und BakLLaVA.
LLaVA zeigt in Bereichen wie visueller Konversation und inferenzbasierter Frage-Antwort-Systeme eine Leistung, die der von GPT-4 nahekommt. CogAgent hingegen ist ein verbessertes, quelloffenes visuell-sprachliches Modell, basierend auf CogVLM. BakLLaVA schließlich ist ein auf der LLaVA 1.5 Architektur basierendes, verbessertes Mistral 7B Basismodell, das sich durch höhere Leistung und Eignung für kommerzielle Anwendungen auszeichnet.
Diese quelloffenen visuellen Modelle besitzen ein enormes Potenzial im Bereich der Bildverarbeitung.