Recentemente, a plataforma de mídia social Bluesky enfrentou um grande evento de raspagem de dados. Daniel van Strien, um bibliotecário de aprendizado de máquina, extraiu mais de um milhão de postagens públicas de usuários da API do Bluesky e carregou esses dados para a empresa de IA Hugging Face.

image.png

O conjunto de dados inclui os identificadores descentralizados (DID) dos usuários e uma série de recursos para pesquisar conteúdo de usuários específicos. Van Strien afirmou que o objetivo principal do conjunto de dados é o desenvolvimento de modelos de linguagem e processamento de linguagem natural, além de análise de tendências de mídia social, moderação de conteúdo e pesquisa de padrões de publicação.

Essa ação de raspagem de dados gerou ampla preocupação, pois os usuários do Bluesky não concordaram com o uso de seu conteúdo para esse fim. Embora a plataforma não proíba explicitamente esse comportamento, sua API aberta fornece um "fluxo de dados públicos agregados e cronológicos", incluindo postagens, curtidas, seguidores, alterações de contas, etc. Portanto, teoricamente, o conteúdo do Bluesky está aberto a desenvolvedores externos.

Em resposta, um representante do Bluesky disse: "O Bluesky é uma rede social aberta e pública, como outros sites na internet.

Embora os arquivos robots.txt nem sempre impeçam empresas externas de raspar esses sites, a situação é semelhante. Esperamos encontrar uma maneira de permitir que os usuários do Bluesky comuniquem a organizações/desenvolvedores externos se eles concordam com o uso de seus dados, e esperamos que as organizações externas respeitem o consentimento do usuário. Estamos ativamente discutindo como alcançar esse objetivo."

O incidente gerou preocupações entre os usuários, especialmente porque muitos usuários migraram para o Bluesky devido às novas políticas de treinamento de IA da plataforma concorrente X. É importante notar que, pouco depois da publicação desta reportagem, Van Strien removeu o conjunto de dados do Hugging Face.

image.png

Ele declarou no Bluesky: "Eu removi os dados do Bluesky do repositório. Embora eu quisesse apoiar o desenvolvimento de ferramentas para a plataforma, percebi que essa prática viola os princípios de transparência e consentimento na coleta de dados. Sinto muito por isso."

Destaques:

🌐1. Um especialista em aprendizado de máquina extraiu um milhão de postagens públicas do Bluesky e as carregou para a empresa de IA Hugging Face, com o objetivo de pesquisa em aprendizado de máquina.

🔍2. Os usuários do Bluesky não concordaram com o uso de seus dados, e a plataforma não proibiu explicitamente esse tipo de raspagem de dados.

🚫3. O incidente de raspagem de dados gerou preocupações entre os usuários, e Van Strien removeu os dados do Hugging Face e pediu desculpas.