Crise des données IA ! Une étude du MIT révèle une diminution rapide du partage public de données web !

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Aug 13, 2024

121

Derrière le développement rapide de l'intelligence artificielle, un problème sérieux émerge : la difficulté croissante d'obtenir des données. Des recherches récentes du MIT et d'autres institutions révèlent que les données web, autrefois facilement accessibles, deviennent de plus en plus difficiles à obtenir, ce qui représente un défi majeur pour l'entraînement et la recherche en IA.

Les chercheurs ont constaté que plusieurs ensembles de données open source, tels que C4, RefineWeb et Dolma, voient les sites web qu'ils ont collectés durcir rapidement leurs accords de licence. Cela affecte non seulement l'entraînement des modèles d'IA commerciaux, mais aussi les recherches menées par des organismes universitaires et à but non lucratif.

Cette recherche a été menée par quatre responsables d'équipe du MIT Media Lab, du Wellesley College et de la start-up IA Raive. Ils soulignent que les restrictions sur les données augmentent de façon exponentielle, et que l'asymétrie et l'incohérence des licences sont de plus en plus prononcées.

L'équipe de recherche a utilisé le protocole d'exclusion des robots (Robots Exclusion Protocol, REP) et les conditions d'utilisation (Terms of Service, ToS) des sites web comme méthodes de recherche. Ils ont constaté que même les robots d'exploration de grandes entreprises d'IA comme OpenAI sont confrontés à des restrictions de plus en plus strictes.

Des prédictions basées sur le modèle SARIMA indiquent que les restrictions sur les données imposées par les robots.txt et les ToS continueront d'augmenter à l'avenir. Cela suggère que l'accès aux données web ouvertes deviendra de plus en plus difficile.

L'étude a également révélé que les données collectées sur le web ne correspondent pas toujours à l'utilisation prévue pour l'entraînement des modèles d'IA, ce qui peut avoir des conséquences sur l'alignement des modèles, les pratiques de collecte de données et les droits d'auteur.

L'équipe de recherche appelle de ses vœux des accords plus flexibles qui reflètent la volonté des propriétaires de sites web, en distinguant les cas d'utilisation autorisés et non autorisés, et en les synchronisant avec les conditions d'utilisation. Ils souhaitent également que les développeurs d'IA puissent utiliser les données du web ouvert pour l'entraînement, et espèrent que la législation future soutiendra cette pratique.

Adresse de l'article : https://www.dataprovenance.org/Consent_in_Crisis.pdf

Nvidia et l'Utah lancent un programme d'éducation à l'intelligence artificielle pour former les talents de demain

Nvidia et le gouvernement de l'Utah ont récemment annoncé un partenariat stratégique pour lancer un programme complet d'éducation à l'intelligence artificielle, visant à améliorer les compétences de la main-d'œuvre de l'État et à stimuler la croissance économique. Ce partenariat public-privé fournira des ressources clés pour développer des compétences en intelligence artificielle générative aux universités, collèges communautaires et programmes d'éducation pour adultes de l'Utah. Au cœur du programme, les éducateurs pourront obtenir une certification professionnelle via le programme des ambassadeurs universitaires du Nvidia Deep Learning Institute, et bénéficieront de kits pédagogiques de haute qualité, de contenu pour des ateliers et d'un accès au cloud Nvidia GPU.

Microsoft investit 298 millions de dollars dans les infrastructures d'intelligence artificielle en Afrique du Sud

Le géant de la technologie Microsoft a récemment annoncé un investissement de 298 millions de dollars en Afrique du Sud pour la construction d'infrastructures d'intelligence artificielle et de centres de données. Cette initiative vise à stimuler le développement de l'économie numérique sud-africaine et à fournir aux entreprises et aux particuliers locaux un meilleur soutien et des services technologiques. Avec la demande mondiale croissante d'intelligence artificielle, l'investissement de Microsoft contribuera à renforcer la compétitivité de l'Afrique du Sud dans ce domaine. Le plan d'investissement de Microsoft comprend non seulement des investissements financiers, mais aussi l'introduction de technologies et le développement des talents. En collaborant avec les entreprises et les établissements d'enseignement locaux, Microsoft espère pouvoir, en Afrique du Sud,

Le département de la Justice américain exige que Google vende Chrome et assouplit les restrictions sur les investissements en IA

Selon de récents documents judiciaires du département de la Justice américain, Google reste tenu de vendre son navigateur web Chrome. Cette proposition, initialement formulée l'année dernière par le président Biden, a été maintenue par le département de la Justice sous la seconde présidence de Trump. Cependant, le département de la Justice n'exige plus que Google cède tous ses investissements en intelligence artificielle, y compris les milliards de dollars investis dans Anthropic. Dans ses documents judiciaires, le département de la Justice affirme que : « Les agissements illégaux de Google ont engendré un géant économique qui a gravement perturbé le marché, et il est essentiel de garantir que Google, quoi qu'il arrive, ne puisse plus exercer de pouvoir de marché aussi important. »

Actualités IA

Crise des données IA ! Une étude du MIT révèle une diminution rapide du partage public de données web !

AIbase基地

Recommandations d'actualités IA connexes

Nvidia et l'Utah lancent un programme d'éducation à l'intelligence artificielle pour former les talents de demain

Microsoft investit 298 millions de dollars dans les infrastructures d'intelligence artificielle en Afrique du Sud

FoxBrain : un modèle linguistique chinois de grande envergure lancé par Foxconn en seulement quatre semaines !

Le département de la Justice américain exige que Google vende Chrome et assouplit les restrictions sur les investissements en IA