Um ex-aluno da Universidade de Zhejiang e o Instituto de Pesquisa da Microsoft colaboraram no lançamento do modelo multimodal LLaVA, desafiando o GPT-4V. O LLaVA se destacou em 11 conjuntos de dados de teste e recebeu mais de 6.000 estrelas. Suas capacidades abrangentes superam o GPT-4V em 85% dos casos. O código-fonte, o modelo e os dados de treinamento do LLaVA já estão disponíveis para uso.
Ex-alunos da Universidade de Zhejiang e Microsoft lançam modelo multimodal LLaVA, desafiando o GPT-4V
