微软最新发布了多模态模型LLaVA-1.5,其引入了跨模态连接器和学术视觉问答数据集,取得了多个领域的成功测试。该模型不仅达到了开源模型的最高水平,还融合了视觉、语言、生成器等多个模块。据测试表明,LLaVA-1.5的性能媲美GPT-4V,是一项令人振奋的技术突破。