Le nombre de domaines Web interdisant l'accès aux données d'entraînement des modèles d'IA augmente rapidement

Une nouvelle étude révèle que les modèles d'IA perdent progressivement l'accès aux données de leur entraînement en ligne. Menée par la Data Provenance Initiative, cette étude montre que la proportion de contenu complètement bloqué dans les données d'entraînement de l'IA est passée d'environ 1 % à 5-7 % entre avril 2023 et avril 2024. Cette tendance pourrait entraîner le fait que les futurs modèles d'IA n'apprennent que des informations plus limitées, plus biaisées et obsolètes.

Code, Internet, Ordinateur

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

Cette étude a analysé les fichiers robots.txt et les conditions d'utilisation de 14 000 domaines web, sources de jeux de données d'entraînement populaires pour l'IA (tels que C4, RefinedWeb et Dolma).

L'étude a révélé que les sites d'actualité, les forums et les plateformes de médias sociaux sont les principales sources de restriction d'accès aux données de l'IA, le taux de blocage des sites d'actualité passant de 3 % à 45 %. Cela signifie que le contenu d'actualité de haute qualité pourrait être moins représenté dans les données d'entraînement de l'IA, remplacé par du contenu de sites web commerciaux et de e-commerce de moindre qualité.

Ce phénomène représente un défi pour les développeurs d'IA, car des données de haute qualité sont essentielles à l'entraînement de modèles performants. Cependant, les fournisseurs de contenu de haute qualité pourraient également trouver de nouvelles sources de revenus en concluant des accords de licence avec les entreprises d'IA.

Mark Zuckerberg, PDG de Meta, a déclaré qu'il était presque impossible ou extrêmement coûteux d'obtenir suffisamment de données protégées par des droits d'auteur pour entraîner un modèle d'IA performant.

Sans décision sur l'utilisation équitable, cette situation pourrait s'aggraver. OpenAI a récemment conclu des accords de plusieurs millions de dollars avec plusieurs éditeurs pour obtenir leur contenu à des fins d'affichage en temps réel et d'entraînement de l'IA. On s'attend à ce que d'autres entreprises suivent cet exemple, sauf changement majeur de jurisprudence.

Points clés :

🛑 Restriction accrue de l'accès aux données : Entre 2023 et 2024, la proportion de contenu bloqué dans les données d'entraînement de l'IA a considérablement augmenté, le taux de blocage des sites d'actualité passant de 3 % à 45 %.
📉 Diminution des données de haute qualité : La part du contenu d'actualité de haute qualité dans les données d'entraînement de l'IA diminue, susceptible d'être remplacée par du contenu commercial et de e-commerce de moindre qualité.
💸 Coûts élevés et problèmes de licences : L'obtention de suffisamment de données pour l'entraînement de l'IA est coûteuse, OpenAI et Meta sont confrontés à des défis, et les fournisseurs de contenu de haute qualité pourraient trouver de nouvelles sources de revenus grâce à des accords de licence.

Actualités IA

Le nombre de domaines Web interdisant l'accès aux données d'entraînement des modèles d'IA augmente rapidement

AIbase基地