LLaVA: Un nuevo modelo multimodal que desafía a GPT-4V

Un antiguo alumno de la Universidad de Zhejiang (Instituto Zijingang) en colaboración con Microsoft Research, ha lanzado LLaVA, un modelo multimodal que desafía a GPT-4V. LLaVA ha demostrado un excelente rendimiento en 11 conjuntos de datos de prueba, obteniendo más de 6000 estrellas. Sus capacidades generales superan en un 85% al GPT-4V. El código fuente, el modelo y los datos de entrenamiento de LLaVA ya están disponibles.