L'équipe DeepMind de Google a officiellement lancé le jeu de données WebLI-100B, un vaste ensemble de données contenant 100 milliards de paires image-texte. Son objectif ? Améliorer la diversité culturelle et la multilinguisme des modèles de langage visuel de l'intelligence artificielle. Grâce à ce jeu de données, les chercheurs espèrent améliorer les performances des modèles de langage visuel dans différents contextes culturels et linguistiques, tout en réduisant les écarts de performance entre les différents sous-groupes, améliorant ainsi l'inclusivité de l'IA.
Les modèles de langage visuel (VLMs) s'appuient sur d'énormes jeux de données pour apprendre à connecter les images et le texte, afin d'exécuter des tâches telles que la génération de légendes d'images et les questions-réponses visuelles. Par le passé, ces modèles reposaient principalement sur de grands jeux de données tels que Conceptual Captions et LAION. Bien que ceux-ci contiennent des millions, voire des milliards de paires image-texte, leur progression s'est ralentie à l'échelle de 10 milliards de paires, ce qui limite l'amélioration de la précision et de l'inclusivité des modèles.
Le lancement du jeu de données WebLI-100B répond à ce défi. Contrairement aux jeux de données précédents, WebLI-100B ne repose pas sur des méthodes de filtrage strictes qui suppriment souvent des détails culturels importants. Au contraire, il privilégie l'élargissement de la portée des données, notamment dans les langues à faibles ressources et les expressions culturelles diverses. L'équipe de recherche a effectué un pré-entraînement de modèles sur différents sous-ensembles de WebLI-100B afin d'analyser l'impact de la taille des données sur les performances des modèles.
Les tests ont montré que les modèles entraînés avec l'ensemble de données complet surpassent nettement ceux entraînés sur des ensembles de données plus petits sur les tâches culturelles et multilingues, même avec les mêmes ressources de calcul. De plus, l'étude a révélé que l'augmentation de la taille du jeu de données de 10 milliards à 100 milliards de paires a un impact limité sur les tests de référence centrés sur l'Occident, mais qu'elle améliore considérablement les performances sur les tâches de diversité culturelle et la recherche d'informations dans les langues à faibles ressources.
Article : https://arxiv.org/abs/2502.07617
Points clés :
🌐 **Nouvel ensemble de données :** WebLI-100B est un immense jeu de données contenant 100 milliards de paires image-texte, conçu pour améliorer la diversité culturelle et la multilinguisme des modèles d'IA.
📈 **Amélioration des performances des modèles :** Les modèles entraînés avec le jeu de données WebLI-100B surpassent ceux entraînés avec des jeux de données précédents sur les tâches multiculturelles et multilingues.
🔍 **Réduction des biais :** Le jeu de données WebLI-100B évite le filtrage strict, préservant ainsi davantage de détails culturels et améliorant l'inclusivité et la précision des modèles.