Reddit prend des mesures pour empêcher les entreprises d'IA de scraper son contenu, ou du moins pour leur demander de payer.

Plus tôt cette semaine, Reddit a annoncé qu'il modifiait son protocole d'exclusion des robots, également connu sous le nom de fichier robots.txt. Cette modification apparemment anodine fait partie d'une négociation/lutte plus large entre les propriétaires de contenu convoités par les entreprises d'IA pour entraîner leurs modèles linguistiques.

Assistant IA Robot

Source : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

« Robots.txt » est la façon dont un site Web communique aux tiers comment il doit être crawlé. L'exemple classique est celui des sites Web qui autorisent Google à les crawler afin qu'ils soient inclus dans les résultats de recherche.

En ce qui concerne l'intelligence artificielle, l'échange de valeur n'est pas aussi évident. Lorsque le modèle économique de votre site Web repose sur l'attraction de clics et de l'attention, permettre aux entreprises d'IA d'exploiter votre contenu sans envoyer de trafic (et dans certains cas, elles plagient directement votre travail) n'est pas attrayant.

Par conséquent, en modifiant son fichier robots.txt et en continuant à limiter et à bloquer les robots et les crawlers inconnus, Reddit semble s'efforcer d'empêcher les pratiques critiquées de sociétés comme Perplexity AI.

Points clés :

- 📢 Reddit prend des mesures pour empêcher les entreprises d'IA de scraper son contenu, ou du moins pour leur demander de payer.

- 🤖 Robots.txt est la façon dont un site Web communique aux tiers comment il doit être crawlé. L'exemple classique est celui des sites Web qui autorisent Google à les crawler afin qu'ils soient inclus dans les résultats de recherche.

- 💻 Reddit modifie son fichier robots.txt et continue de limiter et de bloquer les robots et les crawlers inconnus pour empêcher les pratiques critiquées de sociétés comme Perplexity AI.