A Microsoft lançou recentemente o Phi-3.5-vision, um modelo de IA leve, multi-modal e de código aberto. É o mais novo membro da família de modelos Phi-3, projetado para aplicações que precisam processar simultaneamente entradas de texto e visuais. O modelo Phi-3.5-vision se destaca em ambientes com recursos de memória ou computação limitados, suporta comprimento de contexto de 128K e é uma escolha ideal para os setores comercial e de pesquisa.

image.png

O modelo Phi-3.5-vision possui amplas funcionalidades, incluindo compreensão de imagens, reconhecimento óptico de caracteres (OCR), análise de gráficos e tabelas, resumo de múltiplas imagens ou clipes de vídeo. Em benchmarks relacionados ao processamento de imagens e vídeos, o modelo demonstrou uma melhoria significativa no desempenho.

O modelo Phi-3.5-vision é composto por um sistema de 4,2 bilhões de parâmetros, incluindo codificador de imagens, conector, projetor e o modelo de linguagem Phi-3Mini. Ele foi treinado usando dados educacionais de alta qualidade, dados sintéticos e documentos públicos rigorosamente selecionados, garantindo a qualidade e a privacidade dos dados.

O Phi-3.5-vision inclui três modelos:

Phi-3.5Mini Instruct: Modelo de IA leve, adequado para ambientes com recursos de memória ou computação limitados.

Phi-3.5MoE (Mixture of Experts): O primeiro modelo "mistura de especialistas" da Microsoft, especializado em lidar com tarefas complexas.

Phi-3.5Vision Instruct: Modelo multi-modal, integrando funcionalidades de processamento de texto e imagem.

Principais características

As principais características do modelo Phi-3.5-vision incluem compreensão de imagens, OCR, compreensão de gráficos e tabelas, comparação de múltiplas imagens, resumo de múltiplas imagens ou clipes de vídeo, capacidade de raciocínio eficiente e otimização de latência e memória.

O Phi-3.5-vision obteve resultados excelentes em vários benchmarks, como MMMU, MMBench, TextVQA e testes de capacidade de processamento de vídeo, além do benchmark BLINK, demonstrando seu poderoso desempenho em tarefas multimodais e visuais.

O lançamento do modelo Microsoft Phi-3.5-vision oferece uma nova opção para o campo da IA, especialmente em termos de execução em dispositivos finais e raciocínio visual complexo. Suas características de código aberto e design otimizado permitem que ele apresente um desempenho excepcional mesmo em ambientes com recursos limitados, fornecendo suporte robusto para uma variedade de aplicações impulsionadas por IA.

Endereço para download do modelo: https://huggingface.co/microsoft/Phi-3.5-vision-instruct