Recentemente, equipes de pesquisa de várias instituições de pesquisa chinesas lançaram um conjunto de dados multimodais em larga escala chamado Infinity-MM e treinaram um modelo de IA de alto desempenho chamado Aquila-VL-2B com base neste conjunto de dados. Esta descoberta injetou nova energia no desenvolvimento da IA multimodal.
O conjunto de dados Infinity-MM é surpreendentemente grande, contendo quatro grandes categorias de dados: 10 milhões de descrições de imagens, 24,4 milhões de dados de instruções visuais gerais, 6 milhões de dados de instruções de alta qualidade selecionados e 3 milhões de dados gerados por modelos de IA como GPT-4. A equipe de pesquisa usou o modelo de IA de código aberto RAM++ para análise de imagens e extração de informações e um sistema de classificação exclusivo de seis categorias para garantir a qualidade e a diversidade dos dados gerados.
Observação da fonte: A imagem foi gerada por IA, fornecedora de serviços de licenciamento de imagens Midjourney
Em termos de arquitetura do modelo, o Aquila-VL-2B é baseado no LLaVA-OneVision, integrando o modelo de linguagem Qwen-2.5 e a tecnologia de processamento de imagens SigLIP. A equipe de pesquisa adotou um método de treinamento progressivo em quatro estágios: começando com o aprendizado básico de associação de imagem e texto, passando gradualmente para tarefas visuais gerais, processamento de instruções específicas e, finalmente, integrando dados sintéticos, ao mesmo tempo em que aumenta gradualmente o limite de resolução da imagem.
Apesar de ter apenas 2 bilhões de parâmetros, o Aquila-VL-2B apresentou um desempenho brilhante em vários testes de referência. Ele obteve a melhor pontuação de 54,9% no teste de compreensão multimodal MMStar e uma alta pontuação de 59% no teste de capacidade matemática MathVista, superando significativamente sistemas semelhantes. Em testes de compreensão de imagens gerais, o modelo obteve excelentes pontuações de 43% no HallusionBench e 75,2% no MMBench.
A pesquisa descobriu que a introdução de dados sintéticos contribuiu significativamente para a melhoria do desempenho do modelo. Os experimentos mostraram que, sem esses dados adicionais, o desempenho do modelo caiu em média 2,4%. A partir da terceira fase, o desempenho do Aquila-VL-2B superou significativamente os modelos de referência InternVL2-2B e Qwen2VL-2B, especialmente na quarta fase, com o aumento da quantidade de dados, a melhoria do desempenho foi ainda mais evidente.
Vale ressaltar que a equipe de pesquisa disponibilizou o conjunto de dados e o modelo para a comunidade de pesquisa, o que promoverá enormemente o desenvolvimento da tecnologia de IA multimodal. O modelo não apenas foi treinado em GPUs Nvidia A100, mas também suporta chips desenvolvidos na China, demonstrando uma forte adaptabilidade de hardware.