Recentemente, a equipe de pesquisa de IA da Apple lançou sua nova família de modelos de linguagem grandes multimodais (MLLMs) - MM1.5. Esta série de modelos consegue combinar vários tipos de dados, como texto e imagens, demonstrando novas capacidades da IA na compreensão de tarefas complexas. Tarefas como perguntas e respostas visuais, geração de imagens e interpretação de dados multimodais podem ser melhor resolvidas com a ajuda desses modelos.
Um grande desafio para os modelos multimodais é como realizar uma interação eficaz entre diferentes tipos de dados. Modelos anteriores frequentemente encontravam dificuldades ao lidar com imagens ricas em texto ou tarefas visuais de grão fino. Portanto, a equipe de pesquisa da Apple introduziu no modelo MM1.5 um método inovador de centralização de dados, utilizando dados OCR de alta resolução e descrições de imagens sintéticas para fortalecer a capacidade de compreensão do modelo.
Este método não apenas fez com que o MM1.5 superasse modelos anteriores em tarefas de compreensão e localização visual, mas também lançou duas versões especializadas: MM1.5-Video e MM1.5-UI, para compreensão de vídeo e análise de interfaces móveis, respectivamente.
O treinamento do modelo MM1.5 é dividido em três etapas principais.
A primeira etapa é o pré-treinamento em larga escala, usando 2 bilhões de pares de imagens e texto, 600 milhões de documentos de imagem e texto intercalados e 2 trilhões de tokens de texto apenas.
A segunda etapa é o pré-treinamento contínuo com 45 milhões de dados OCR de alta qualidade e 7 milhões de descrições sintéticas, para melhorar ainda mais o desempenho em tarefas de imagens ricas em texto.
Finalmente, na etapa de ajuste fino supervisionado, o modelo utiliza dados cuidadosamente selecionados de imagem única, multi-imagem e apenas texto para otimizá-lo, tornando-o mais adequado para referências visuais detalhadas e raciocínio multi-imagem.
Após uma série de avaliações, o modelo MM1.5 apresentou excelente desempenho em vários testes de referência, especialmente no processamento de imagens ricas em texto, com uma melhoria de 1,4 pontos em comparação com modelos anteriores. Além disso, mesmo o MM1.5-Video, especializado em compreensão de vídeo, atingiu um nível de excelência em tarefas relacionadas, graças à sua poderosa capacidade multimodal.
A família de modelos MM1.5 não apenas estabelece novos padrões para modelos de linguagem grandes multimodais, mas também demonstra seu potencial em vários aplicativos, desde a compreensão geral de texto e imagem até a análise de vídeo e interface do usuário.
Destaques:
🌟 **Variantes do Modelo**: Inclui modelos densos e MoE com parâmetros variando de 1 bilhão a 30 bilhões, garantindo escalabilidade e implantação flexível.
📊 **Dados de Treinamento**: Utilizando 2 bilhões de pares de imagem e texto, 600 milhões de documentos de imagem e texto intercalados e 2 trilhões de tokens de texto apenas.
🚀 **Melhoria de Desempenho**: Melhoria de 1,4 pontos em comparação com modelos anteriores em testes de referência focados na compreensão de imagens ricas em texto.