A Apple lançou recentemente uma atualização significativa para seu modelo de inteligência artificial multimodal MM1, atualizando-o para a versão MM1.5. Esta atualização não é apenas uma simples mudança de número de versão, mas sim uma melhoria abrangente de suas capacidades, resultando em um desempenho muito mais poderoso em várias áreas.

A atualização central do MM1.5 reside em seu método inovador de processamento de dados. O modelo emprega um método de treinamento centrado nos dados, selecionando e otimizando cuidadosamente o conjunto de dados de treinamento. Especificamente, o MM1.5 utiliza uma mistura de dados OCR de alta definição e descrições de imagens sintéticas, além de dados de ajuste fino de instruções visuais otimizados. A introdução desses dados levou a melhorias significativas no reconhecimento de texto, compreensão de imagens e execução de instruções visuais.

image.png

Em termos de escala do modelo, o MM1.5 abrange várias versões com de 1 bilhão a 30 bilhões de parâmetros, incluindo variantes densas e mistas de especialistas (MoE). É importante notar que, mesmo os modelos menores de 1 bilhão e 3 bilhões de parâmetros, através de um design cuidadoso dos dados e estratégias de treinamento, alcançam níveis de desempenho impressionantes.

image.png

As melhorias de capacidade do MM1.5 se manifestam principalmente nos seguintes aspectos: compreensão de imagens com texto denso, referência e localização visual, raciocínio multi-imagem, compreensão de vídeo e compreensão de IU móvel. Essas capacidades permitem que o MM1.5 seja aplicado em cenários mais amplos, como identificar artistas e instrumentos em fotos de concertos, entender dados de gráficos e responder a perguntas relacionadas, e localizar objetos específicos em cenários complexos.

image.png

image.png

Para avaliar o desempenho do MM1.5, os pesquisadores o compararam com outros modelos multimodais avançados. Os resultados mostraram que o MM1.5-1B se destacou entre os modelos de 1 bilhão de parâmetros, superando significativamente outros modelos de mesmo nível. O desempenho do MM1.5-3B superou o MiniCPM-V2.0 e se igualou ao InternVL2 e Phi-3-Vision. Além disso, o estudo descobriu que, tanto para modelos densos quanto para modelos MoE, o desempenho melhora significativamente com o aumento da escala.

O sucesso do MM1.5 não apenas demonstra a capacidade de P&D da Apple na área de inteligência artificial, mas também aponta o caminho para o futuro desenvolvimento de modelos multimodais. Ao otimizar os métodos de processamento de dados e a arquitetura do modelo, mesmo modelos de menor escala podem alcançar um desempenho poderoso, o que é de grande importância para a implantação de modelos de IA de alto desempenho em dispositivos com recursos limitados.

Endereço do artigo: https://arxiv.org/pdf/2409.20566