Récemment, Steve Huffman, PDG de Reddit, a déclaré lors d'une interview que la société cherchait à conclure des accords d'utilisation de données avec les grandes entreprises technologiques, exigeant que les entreprises souhaitant continuer à extraire les données de Reddit paient. Cette initiative découle d'accords conclus entre Reddit, Google et OpenAI, et Huffman espère que d'autres entreprises suivront.

Huffman a notamment cité Microsoft, Anthropic et Perplexity pour avoir refusé de négocier l'utilisation des données, déclarant que « bloquer ces entreprises est vraiment pénible ». Il a souligné que sans accord, Reddit ne pouvait pas contrôler ou comprendre comment ses données étaient utilisées, ce qui a contraint l'entreprise à bloquer les entreprises qui refusaient d'accepter les conditions.

reddit, capture d'écran du logo officiel

Pour faire face à cette situation, Reddit a renforcé ces derniers mois les restrictions imposées aux robots d'indexation. Début juillet, la société a mis à jour son fichier robots.txt pour empêcher l'accès des robots d'indexation n'ayant pas conclu d'accord. Par la suite, les utilisateurs ont constaté que le contenu de Reddit n'apparaissait que dans les résultats de recherche Google ayant conclu un accord, et avait disparu des autres moteurs de recherche comme Bing.

Huffman a critiqué Microsoft pour avoir utilisé les données de Reddit sans autorisation pour entraîner son IA et avoir vendu le contenu via l'API Bing à d'autres moteurs de recherche. Il a cité les propos du PDG de l'IA de Microsoft selon lesquels les données publiques sur Internet sont un « logiciel gratuit ». Huffman estime que ce point de vue représente l'attitude de certaines entreprises technologiques envers le contenu Internet.

Concernant la disparition du contenu de Reddit de Bing, Jordi Ribas, responsable de la recherche chez Microsoft, a déclaré que cela était dû au blocage de l'accès de Bing au site web de Reddit par ce dernier. Un porte-parole de Microsoft a souligné que l'entreprise respectait les instructions des fournisseurs de contenu concernant l'utilisation de celui-ci.

Huffman a souligné que le modèle d'échange de valeur des moteurs de recherche traditionnels a changé. Avec la fusion de la recherche, de la synthèse et de l'entraînement de l'IA, le modèle consistant simplement à échanger du trafic contre du contenu est devenu complexe. Il a déclaré que Reddit, aux côtés des éditeurs de médias traditionnels, cherchait à mettre en place un modèle payant pour fournir des informations à l'IA générative.

À ce sujet, Anthropic a déclaré avoir ajouté Reddit à sa liste noire de robots d'indexation et respecter ses paramètres robots.txt. Microsoft a refusé de commenter, tandis que Perplexity n'a pas répondu à la demande de commentaire.

Cette controverse met en lumière la complexité de la valeur et des droits d'utilisation du contenu à l'ère du numérique, et préfigure de nouveaux modèles de coopération possibles entre les entreprises technologiques et les fournisseurs de contenu.