Este artículo presenta LLaVA 1.5, un modelo de lenguaje multimodal de código abierto que está siendo desarrollado por la comunidad. Integra varios componentes de IA generativa y, después de un proceso de optimización, presenta una alta eficiencia computacional, alcanzando una gran precisión en diversas tareas.
LLaVA 1.5 utiliza CLIP como codificador visual y el modelo de lenguaje de código abierto LLaMA, conectados mediante un conector MLP. Con tan solo alrededor de 600.000 ejemplos de entrenamiento y un día de procesamiento, supera a otros modelos de código abierto en pruebas de referencia multimodales.
A pesar de las limitaciones de uso de LLaVA 1.5, representa una dirección innovadora en la comunidad de código abierto y promete impulsar el desarrollo de grandes modelos de código abierto, proporcionando a los usuarios herramientas de IA generativa más convenientes y eficientes.