LLaVA-1.5: Um Avanço Significativo

A Microsoft lançou recentemente o modelo multimodal LLaVA-1.5, que incorpora um conector multimodal e um conjunto de dados acadêmicos de perguntas e respostas visuais, obtendo sucesso em vários testes de domínio. Este modelo não apenas alcançou o nível mais alto entre os modelos de código aberto, mas também integra vários módulos, incluindo visão, linguagem e geração.

Testes demonstraram que o desempenho do LLaVA-1.5 é comparável ao do GPT-4V, representando um avanço tecnológico empolgante.