Modelo multimodal de código aberto LLaVA-1.5 da Microsoft rivaliza com o GPT-4V

站长之家

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Jan 31, 2024

LLaVA-1.5: Um Avanço Significativo

A Microsoft lançou recentemente o modelo multimodal LLaVA-1.5, que incorpora um conector multimodal e um conjunto de dados acadêmicos de perguntas e respostas visuais, obtendo sucesso em vários testes de domínio. Este modelo não apenas alcançou o nível mais alto entre os modelos de código aberto, mas também integra vários módulos, incluindo visão, linguagem e geração.

Testes demonstraram que o desempenho do LLaVA-1.5 é comparável ao do GPT-4V, representando um avanço tecnológico empolgante.

Nova descoberta em busca multimodal! Modelo de vetor multimodal BGE-VL de código aberto do Instituto de Inteligência Artificial de Pequim

Em 6 de março, o Instituto de Pesquisa de Inteligência Artificial de Pequim anunciou o lançamento do modelo de vetor multimodal BGE-VL de código aberto, uma conquista que marca um novo avanço no campo da busca multimodal. O modelo BGE-VL alcançou os melhores resultados em tarefas de busca multimodal, como busca de imagem e texto e busca de imagem combinada, melhorando significativamente o desempenho da busca multimodal.

Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos

Recentemente, a Microsoft lançou oficialmente em seu site um modelo básico de agente de IA multimodal chamado “Magma”. Essa nova inteligência artificial possui a capacidade de transcender os mundos digital e físico, podendo processar simultaneamente vários tipos de dados, como imagens, vídeos e texto. Em comparação com os assistentes de IA tradicionais, a característica única do Magma é sua capacidade de previsão psicológica, permitindo-lhe entender com mais precisão as intenções e comportamentos futuros de pessoas ou objetos em vídeos. As aplicações do Magma são vastas; os usuários podem utilizar essa IA

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Em 25 de fevereiro, na Conferência Global de Desenvolvedores de 2025 da SenseTime, a SenseTime anunciou uma atualização completa de sua ferramenta de produtividade de IA, a família de guaxinins da SenseTime. Essa atualização reforça ainda mais suas capacidades multimodais, acelerando a implementação de aplicativos de IA e evoluindo para um agente de IA. Esta atualização não apenas melhora o desempenho da ferramenta, mas também retorna a IA à sua missão mais básica: ser uma ferramenta de produtividade poderosa.

Notícias e Informações de IA

Modelo multimodal de código aberto LLaVA-1.5 da Microsoft rivaliza com o GPT-4V

站长之家

Notícias de IA Relacionadas Recomendadas

Nova descoberta em busca multimodal! Modelo de vetor multimodal BGE-VL de código aberto do Instituto de Inteligência Artificial de Pequim

Netflix contrata cientistas e engenheiros de aprendizado de máquina para impulsionar a inteligência de conteúdo

Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Notícias e Informações de IA

Modelo multimodal de código aberto LLaVA-1.5 da Microsoft rivaliza com o GPT-4V

站长之家

Notícias de IA Relacionadas Recomendadas

Nova descoberta em busca multimodal! Modelo de vetor multimodal BGE-VL de código aberto do Instituto de Inteligência Artificial de Pequim

Netflix contrata cientistas e engenheiros de aprendizado de máquina para impulsionar a inteligência de conteúdo

​Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Microsoft lança o agente de IA multimodal de código aberto “Magma”: capaz de fazer pedidos automáticos e prever comportamentos