Criado para raciocínio visual complexo! A Microsoft lança o modelo leve e multimodal de código aberto Phi-3.5-vision

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Aug 21, 2024

358

A Microsoft lançou recentemente o Phi-3.5-vision, um modelo de IA leve, multi-modal e de código aberto. É o mais novo membro da família de modelos Phi-3, projetado para aplicações que precisam processar simultaneamente entradas de texto e visuais. O modelo Phi-3.5-vision se destaca em ambientes com recursos de memória ou computação limitados, suporta comprimento de contexto de 128K e é uma escolha ideal para os setores comercial e de pesquisa.

O modelo Phi-3.5-vision possui amplas funcionalidades, incluindo compreensão de imagens, reconhecimento óptico de caracteres (OCR), análise de gráficos e tabelas, resumo de múltiplas imagens ou clipes de vídeo. Em benchmarks relacionados ao processamento de imagens e vídeos, o modelo demonstrou uma melhoria significativa no desempenho.

O modelo Phi-3.5-vision é composto por um sistema de 4,2 bilhões de parâmetros, incluindo codificador de imagens, conector, projetor e o modelo de linguagem Phi-3Mini. Ele foi treinado usando dados educacionais de alta qualidade, dados sintéticos e documentos públicos rigorosamente selecionados, garantindo a qualidade e a privacidade dos dados.

O Phi-3.5-vision inclui três modelos:

Phi-3.5Mini Instruct: Modelo de IA leve, adequado para ambientes com recursos de memória ou computação limitados.

Phi-3.5MoE (Mixture of Experts): O primeiro modelo "mistura de especialistas" da Microsoft, especializado em lidar com tarefas complexas.

Phi-3.5Vision Instruct: Modelo multi-modal, integrando funcionalidades de processamento de texto e imagem.

Principais características

As principais características do modelo Phi-3.5-vision incluem compreensão de imagens, OCR, compreensão de gráficos e tabelas, comparação de múltiplas imagens, resumo de múltiplas imagens ou clipes de vídeo, capacidade de raciocínio eficiente e otimização de latência e memória.

O Phi-3.5-vision obteve resultados excelentes em vários benchmarks, como MMMU, MMBench, TextVQA e testes de capacidade de processamento de vídeo, além do benchmark BLINK, demonstrando seu poderoso desempenho em tarefas multimodais e visuais.

O lançamento do modelo Microsoft Phi-3.5-vision oferece uma nova opção para o campo da IA, especialmente em termos de execução em dispositivos finais e raciocínio visual complexo. Suas características de código aberto e design otimizado permitem que ele apresente um desempenho excepcional mesmo em ambientes com recursos limitados, fornecendo suporte robusto para uma variedade de aplicações impulsionadas por IA.

Endereço para download do modelo: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

Entenda imagens agora! O assistente de IA Doubao da ByteDance lança recurso de compreensão de imagens

A ByteDance lançou recentemente um novo recurso para o aplicativo Doubao - compreensão de imagens. O aplicativo e a versão para PC do Doubao adicionaram botões de foto e câmera, permitindo que os usuários carreguem imagens para que o sistema identifique o conteúdo. O recurso de compreensão de imagens do Doubao não se limita ao reconhecimento de texto; ele também pode analisar o conteúdo da imagem, e até mesmo entender e explicar piadas.

Microsoft lança LLM2CLIP: nova tecnologia de IA permite que modelos de linguagem auxiliem na compreensão de imagens

No cenário tecnológico atual, o CLIP (Contrastive Language-Image Pre-training) é um importante modelo multimodal fundamental. Ele combina sinais visuais e de texto em um espaço de recursos compartilhado usando uma perda de aprendizagem contrastiva em pares de imagem-texto em larga escala. Como um mecanismo de recuperação, o CLIP suporta várias tarefas, incluindo classificação zero-shot, detecção, segmentação e recuperação de imagem-texto. Além disso, como um extrator de recursos, ele funciona em quase

DeepSeek AI lança JanusFlow, uma estrutura de IA unificada para compreensão e geração de imagens, superando o SDXL em desempenho

Apesar dos rápidos avanços no campo da geração e compreensão de imagens impulsionadas por IA, desafios significativos persistem, impedindo o desenvolvimento de um método unificado e sem falhas. Atualmente, modelos focados em compreensão de imagens tendem a apresentar desempenho inferior na geração de imagens de alta qualidade, e vice-versa. Essa arquitetura de tarefas separadas não apenas aumenta a complexidade, mas também limita a eficiência, tornando trabalhoso o processamento de tarefas que exigem tanto compreensão quanto geração. Além disso, muitos modelos existentes dependem excessivamente de modificações de arquitetura ou componentes pré-treinados para executar qualquer função de forma eficaz, o que leva a compensações de desempenho.

xAI adiciona compreensão de imagens ao Grok; IA agora entende até memes

A xAI, empresa de Elon Musk, adicionou recentemente a capacidade de compreensão de imagens ao seu modelo de IA, Grok. Os usuários pagos do X agora podem enviar imagens ao assistente de IA e fazer perguntas relacionadas. Essa atualização foi confirmada oficialmente por funcionários da xAI e porta-vozes do Grok no X. Musk exibiu as novas capacidades do Grok na plataforma, afirmando que ele não apenas entende o conteúdo das imagens, mas também consegue interpretar o humor nelas contido. No entanto, ele também admitiu que o recurso ainda está em estágio inicial e que a equipe continuará a melhorá-lo. Vale ressaltar que, desde agosto deste ano, o acesso ao