Universidades de prestígio como Tsinghua e Zhejiang impulsionaram o desenvolvimento de alternativas de código aberto ao GPT-4V, resultando em uma série de modelos de visão computacional de alto desempenho na China. Entre eles, LLaVA, CogAgent e BakLLaVA têm recebido muita atenção. O LLaVA demonstra capacidades próximas ao GPT-4 em chat visual e questionamento e resposta com raciocínio. O CogAgent, por sua vez, é um modelo de linguagem visual de código aberto aprimorado com base no CogVLM. Já o BakLLaVA é um modelo base Mistral 7B aprimorado com a arquitetura LLaVA 1.5, apresentando melhor desempenho e potencial comercial. Esses modelos de visão computacional de código aberto possuem um enorme potencial no campo do processamento de imagens.
Tsinghua e Zhejiang lançam alternativas de código aberto ao GPT-4V! Explosão de modelos de visão abertos como LLaVA e CogAgent

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.