Recentemente, equipes de pesquisa de várias instituições chinesas criaram com sucesso o conjunto de dados “Infinity-MM”, um dos maiores conjuntos de dados de IA multimodal abertos disponíveis atualmente, e treinaram um novo modelo pequeno de alto desempenho - Aquila-VL-2B.

Este conjunto de dados inclui principalmente quatro tipos de dados: 10 milhões de descrições de imagens, 24,4 milhões de dados de instruções visuais gerais, 6 milhões de dados de instruções de alta qualidade selecionados e 3 milhões de dados gerados por GPT-4 e outros modelos de IA.

Na geração de dados, a equipe de pesquisa utilizou modelos de IA de código aberto existentes. Primeiro, o modelo RAM++ analisa as imagens e extrai informações importantes, gerando então perguntas e respostas relacionadas. Além disso, a equipe construiu um sistema de classificação especial para garantir a qualidade e a diversidade dos dados gerados.

image.png

Este método de geração de dados sintéticos utiliza um processamento multicamadas, combinando os modelos RAM++ e MiniCPM-V, por meio do reconhecimento de imagens, classificação de instruções e geração de respostas, fornecendo dados de treinamento precisos para o sistema de IA.

O modelo Aquila-VL-2B é baseado na arquitetura LLaVA-OneVision, utiliza o Qwen-2.5 como modelo de linguagem e emprega o SigLIP para o processamento de imagens. O treinamento do modelo foi dividido em quatro etapas, aumentando gradualmente a complexidade. Na primeira etapa, o modelo aprendeu a associação básica imagem-texto; as etapas subsequentes incluíram tarefas visuais gerais, execução de instruções específicas e, finalmente, a integração de dados sintéticos gerados. A resolução da imagem também foi gradualmente aprimorada durante o treinamento.

image.png

Nos testes, o Aquila-VL-2B, com apenas 2 bilhões de parâmetros, obteve a melhor pontuação no teste MMStar com 54,9%. Além disso, o modelo teve um desempenho excepcional em tarefas matemáticas, alcançando uma pontuação de 59% no teste MathVista, superando significativamente sistemas semelhantes.

Em testes de compreensão de imagens gerais, o Aquila-VL-2B também apresentou desempenho excelente, com pontuação de 43% no HallusionBench e 75,2% no MMBench. Os pesquisadores afirmam que a inclusão de dados sintéticos gerados melhorou significativamente o desempenho do modelo; sem esses dados adicionais, o desempenho médio do modelo teria caído 2,4%.

A equipe de pesquisa decidiu disponibilizar o conjunto de dados e o modelo para a comunidade de pesquisa. O processo de treinamento utilizou principalmente GPUs Nvidia A100 e chips chineses. O lançamento bem-sucedido do Aquila-VL-2B marca a crescente ascensão dos modelos de código aberto na pesquisa de IA em relação aos sistemas proprietários tradicionais, especialmente no que diz respeito ao uso de dados de treinamento sintéticos.

Link para o artigo Infinity-MM: https://arxiv.org/abs/2410.18558

Link para o projeto Aquila-VL-2B: https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

Destaques:

🌐 O conjunto de dados “Infinity-MM” contém 10 milhões de descrições de imagens e 24,4 milhões de dados de instruções visuais.

💡 O novo modelo Aquila-VL-2B apresentou desempenho excepcional em vários testes de referência, quebrando recordes para modelos semelhantes.

📈 O uso de dados sintéticos melhorou significativamente o desempenho do modelo, e a equipe de pesquisa decidiu disponibilizar o conjunto de dados e o modelo para a comunidade.