本文介绍了开源社区正在研发的多模态语言模型LLaVA 1.5,它整合了多个生成AI组件,经调优后计算效率很高,可以在多项任务上达到很高的准确率。LLaVA 1.5使用CLIP作为视觉编码器,使用开源LLaMA语言模型,通过MLP连接器进行连接。只需要大约600,000个训练样本和1天的时间,就可以在多模态基准测试中击败其他开源模型。尽管LLaVA 1.5存在使用限制,但它代表了开源社区正在创新的方向,有望推动开源大模型的发展,为用户提供更便捷高效的生成AI工具。