Blueskyユーザーデータがスクレイピング：100万件以上の公開投稿がAIトレーニングに使用される

最近、ソーシャルメディアプラットフォームBlueskyで、大規模なデータ収集事件が発生しました。機械学習の専門家であるダニエル・ヴァン・ストライエン（Daniel van Strien）氏が、BlueskyのAPIインターフェースから100万件を超える公開ユーザー投稿を収集し、AI企業Hugging Faceにアップロードしました。

このデータセットには、ユーザーの分散型識別子（DID）と、特定のユーザーコンテンツを検索できる機能が含まれていました。ヴァン・ストライエン氏によると、このデータセットの主な目的は、言語モデルや自然言語処理の開発、ソーシャルメディアのトレンド分析、コンテンツの監視、投稿パターンの研究などです。

このデータ収集行為は、Blueskyユーザーがデータのこのような使用に同意していないため、大きな注目を集めました。プラットフォームはこれを明確に禁止していませんでしたが、そのオープンなAPIは、投稿、いいね、フォロー、アカウント変更などの情報を含む「集約された時系列の公開データストリーム」を提供していました。そのため、Blueskyのコンテンツは理論上、サードパーティの開発者向けに公開されていました。

これについて、Blueskyの広報担当者は次のように述べています。「Blueskyは、インターネット上の他のウェブサイトと同様に、オープンでパブリックなソーシャルネットワークです。

robots.txtファイルが常に外部企業によるこれらのウェブサイトのクロールを阻止できるわけではありませんが、状況は似ています。Blueskyユーザーが外部組織/開発者に対してデータの使用を許可するかどうかを伝えられる方法を見つけ、外部組織がユーザーの同意を尊重することを願っています。その実現に向けて積極的に検討しています。」

この事件は、競合プラットフォームXの新しいAIトレーニングポリシーのためにBlueskyに移行した多くのユーザーに懸念を引き起こしました。注目すべきは、この報道発表後すぐに、ヴァン・ストライエン氏がHugging Faceからこのデータセットを削除したことでしょう。

彼はBluesky上で次のように述べています。「Blueskyのデータをリポジトリから削除しました。このプラットフォームのツール開発を支援したいと考えていましたが、この行為がデータ収集における透明性と同意の原則に反していることに気づきました。深くお詫び申し上げます。」

要点：
🌐1. 機械学習の専門家がBlueskyの公開投稿100万件以上を収集し、AI企業Hugging Faceにアップロードしました。目的は機械学習研究です。
🔍2. Blueskyユーザーはデータの使用に同意しておらず、プラットフォームもデータ収集を明確に禁止していませんでした。
🚫3. データ収集事件はユーザーの懸念を引き起こし、ヴァン・ストライエン氏はHugging Faceから関連データを削除し、謝罪しました。

AIニュース

Blueskyユーザーデータがスクレイピング：100万件以上の公開投稿がAIトレーニングに使用される

AIbase基地

関連AIニュースの推奨

海外メディア：Manusは中国の第二のDeepSeekモーメントではない可能性

Opera、AI搭載スマートブラウザエージェントを発表、ウェブ閲覧体験を再定義

DeepSeek-R1がHugging Faceのトップに：10,000のいいねで150万のモデルを圧倒

Meta、革新的な「連続概念混合」フレームワークを発表、Transformer事前学習に革命を起こす