LLaVA: Ein Multimodaler Modell, das GPT-4V herausfordert

Ein Absolvent der ZheJiang Universität (ZJU) hat in Zusammenarbeit mit dem Microsoft Research ein multimodales Modell namens LLaVA entwickelt, das GPT-4V herausfordert. LLaVA erzielte in 11 Testdatensätzen hervorragende Ergebnisse und erhielt über 6.000 Sterne auf GitHub. Das Modell zeichnet sich durch seine hohe Gesamtperformance aus und übertrifft GPT-4V in 85% der Fälle. Der Open-Source-Code, das Modell und die Trainingsdaten von LLaVA stehen bereits zur Verfügung.