A equipe do Google DeepMind lançou oficialmente o conjunto de dados WebLI-100B, um vasto conjunto de dados contendo 100 bilhões de pares imagem-texto, projetado para melhorar a diversidade cultural e a multilinguagem dos modelos de linguagem visual de inteligência artificial. Com este conjunto de dados, os pesquisadores esperam melhorar o desempenho dos modelos de linguagem visual em diferentes contextos culturais e linguísticos, reduzindo simultaneamente as diferenças de desempenho entre os subgrupos, melhorando assim a inclusão da inteligência artificial.

QQ_1739519411614.png

Os modelos de linguagem visual (VLMs) dependem de grandes conjuntos de dados para aprender a conectar imagens e texto, realizando tarefas como geração de legendas de imagens e perguntas e respostas visuais. No passado, esses modelos dependiam principalmente de grandes conjuntos de dados como Conceptual Captions e LAION, embora esses conjuntos de dados contivessem milhões a bilhões de pares imagem-texto, seu progresso diminuiu para a escala de 10 bilhões de pares, o que limitou a melhoria adicional na precisão e inclusão do modelo.

O lançamento do conjunto de dados WebLI-100B visa enfrentar esse desafio. Diferentemente dos conjuntos de dados anteriores, o WebLI-100B não depende de métodos de filtragem rigorosos, que geralmente excluem detalhes culturais importantes. Em vez disso, ele se concentra em expandir o escopo dos dados, especialmente em áreas como idiomas com poucos recursos e expressões culturais diversas. A equipe de pesquisa pré-treinou modelos em diferentes subconjuntos do WebLI-100B para analisar o impacto do tamanho dos dados no desempenho do modelo.

Após os testes, os modelos treinados com o conjunto de dados completo apresentaram um desempenho significativamente melhor em tarefas culturais e multilínguas do que os modelos treinados em conjuntos de dados menores, mesmo com os mesmos recursos computacionais. Além disso, descobriu-se que expandir o conjunto de dados de 10 bilhões para 100 bilhões de pares teve um impacto menor nos testes de referência centrados no Ocidente, mas melhorou significativamente as tarefas de diversidade cultural e recuperação de idiomas com poucos recursos.

Artigo:https://arxiv.org/abs/2502.07617

Destaques:

🌐 **Novo conjunto de dados**: O WebLI-100B é um enorme conjunto de dados contendo 100 bilhões de pares imagem-texto, projetado para melhorar a diversidade cultural e a multilinguagem dos modelos de IA.

📈 **Melhoria no desempenho do modelo**: Os modelos treinados com o conjunto de dados WebLI-100B apresentam melhor desempenho em tarefas multiculturais e multilínguas do que os conjuntos de dados anteriores.

🔍 **Redução de vieses**: O conjunto de dados WebLI-100B evita a filtragem rigorosa, retendo mais detalhes culturais, melhorando a inclusão e a precisão do modelo.