Derrière le développement rapide de l'intelligence artificielle, un problème sérieux émerge : la difficulté croissante d'obtenir des données. Des recherches récentes du MIT et d'autres institutions révèlent que les données web, autrefois facilement accessibles, deviennent de plus en plus difficiles à obtenir, ce qui représente un défi majeur pour l'entraînement et la recherche en IA.

Les chercheurs ont constaté que plusieurs ensembles de données open source, tels que C4, RefineWeb et Dolma, voient les sites web qu'ils ont collectés durcir rapidement leurs accords de licence. Cela affecte non seulement l'entraînement des modèles d'IA commerciaux, mais aussi les recherches menées par des organismes universitaires et à but non lucratif.

image.png

Cette recherche a été menée par quatre responsables d'équipe du MIT Media Lab, du Wellesley College et de la start-up IA Raive. Ils soulignent que les restrictions sur les données augmentent de façon exponentielle, et que l'asymétrie et l'incohérence des licences sont de plus en plus prononcées.

L'équipe de recherche a utilisé le protocole d'exclusion des robots (Robots Exclusion Protocol, REP) et les conditions d'utilisation (Terms of Service, ToS) des sites web comme méthodes de recherche. Ils ont constaté que même les robots d'exploration de grandes entreprises d'IA comme OpenAI sont confrontés à des restrictions de plus en plus strictes.

image.png

Des prédictions basées sur le modèle SARIMA indiquent que les restrictions sur les données imposées par les robots.txt et les ToS continueront d'augmenter à l'avenir. Cela suggère que l'accès aux données web ouvertes deviendra de plus en plus difficile.

L'étude a également révélé que les données collectées sur le web ne correspondent pas toujours à l'utilisation prévue pour l'entraînement des modèles d'IA, ce qui peut avoir des conséquences sur l'alignement des modèles, les pratiques de collecte de données et les droits d'auteur.

L'équipe de recherche appelle de ses vœux des accords plus flexibles qui reflètent la volonté des propriétaires de sites web, en distinguant les cas d'utilisation autorisés et non autorisés, et en les synchronisant avec les conditions d'utilisation. Ils souhaitent également que les développeurs d'IA puissent utiliser les données du web ouvert pour l'entraînement, et espèrent que la législation future soutiendra cette pratique.

Adresse de l'article : https://www.dataprovenance.org/Consent_in_Crisis.pdf