Récemment, la plateforme de médias sociaux Bluesky a subi un important incident de collecte de données. Daniel van Strien, un bibliothécaire spécialisé en apprentissage automatique, a récupéré plus d'un million de publications publiques d'utilisateurs via l'API de Bluesky et a téléchargé ces données sur la plateforme Hugging Face, une entreprise spécialisée en intelligence artificielle.

image.png

Cet ensemble de données comprend les identifiants décentralisés (DID) des utilisateurs ainsi que des fonctionnalités permettant de rechercher du contenu spécifique à un utilisateur. Van Strien a déclaré que l'objectif principal de cet ensemble de données était le développement de modèles linguistiques et de traitement du langage naturel, ainsi que l'analyse des tendances sur les médias sociaux, la modération de contenu et l'étude des modèles de publication.

Cette collecte de données a suscité une vive inquiétude, car les utilisateurs de Bluesky n'avaient pas consenti à l'utilisation de leurs données à de telles fins. Bien que la plateforme n'interdise pas explicitement ce type de comportement, son API fournit un « flux de données publiques agrégé et chronologique », incluant les publications, les mentions J'aime, les abonnements et les modifications de compte. Par conséquent, le contenu de Bluesky est théoriquement ouvert aux développeurs tiers.

À ce sujet, un représentant de Bluesky a déclaré : « Bluesky est un réseau social ouvert et public, comme d'autres sites Web sur Internet.

Bien que les fichiers robots.txt ne puissent pas toujours empêcher les entreprises externes de collecter des données sur ces sites, la situation est similaire. Nous souhaitons trouver un moyen permettant aux utilisateurs de Bluesky de communiquer aux organisations/développeurs externes s'ils consentent ou non à l'utilisation de leurs données, et nous espérons que les organisations externes respecteront le consentement des utilisateurs. Nous discutons activement de la manière d'atteindre cet objectif. »

Cet incident a suscité des inquiétudes chez les utilisateurs, notamment ceux qui ont rejoint Bluesky en raison de la nouvelle politique de formation de l'IA de la plateforme concurrente X. Il est à noter que peu après la publication de cet article, Van Strien a supprimé l'ensemble de données de Hugging Face.

image.png

Il a déclaré sur Bluesky : « J'ai supprimé les données de Bluesky de ce dépôt. Bien que je souhaitais soutenir le développement d'outils pour cette plateforme, je me rends compte que cette pratique viole les principes de transparence et de consentement en matière de collecte de données. Je présente mes excuses pour cela. »

Points clés :

🌐1. Un expert en apprentissage automatique a collecté un million de publications publiques de Bluesky et les a téléchargées sur la plateforme Hugging Face, dans le but de les utiliser pour la recherche en apprentissage automatique.

🔍2. Les utilisateurs de Bluesky n'ont pas consenti à l'utilisation de leurs données, et la plateforme n'interdit pas explicitement ce type de collecte de données.

🚫3. L'incident de collecte de données a suscité des inquiétudes chez les utilisateurs, et Van Strien a supprimé les données concernées de Hugging Face et présenté ses excuses.