データ駆動型AIの時代において、大量のデータ取得は強力なモデルを訓練する上で鍵となっています。しかし、データ取得の方法が論争を呼んでいます。最近、Claudeチームによる不適切なデータ収集行為が大きな反発を招いています。
事の発端は、Claudeチームのクローラーが24時間以内に特定企業のサーバーに100万回アクセスし、無許可でウェブサイトのコンテンツを収集したことでした。この行為は、ウェブサイトの「クロール禁止」の告知を公然と無視しただけでなく、大量のサーバーリソースを強奪したものです。
被害企業は防御を試みましたが、Claudeチームのデータ収集を阻止することはできませんでした。企業責任者はソーシャルメディアで怒りを表明し、Claudeチームの行為を非難しました。多くのネットユーザーも不満を表明し、「盗む」という言葉でこの行為を表現する者もいました。
問題となった企業は、アメリカの電子商取引と操作ガイドのウェブサイトであるiFixitです。iFixitは、家電製品やガジェットを網羅する数百万ページの無料オンライン修理ガイドを提供しています。しかし、iFixitは、ClaudeのクローラープログラムであるClaudeBotが短時間で大量のリクエストを行い、1日で10TBのファイルにアクセスし、5月全体で73TBにアクセスしたことを発見しました。
iFixitのCEOであるKyle Wiens氏は、ClaudeBotが無許可で彼らのデータを「盗み」、サーバーリソースを占有したと述べています。iFixitはウェブサイトで無許可のデータ収集を明確に禁止していますが、Claudeチームはそれを無視したようです。
Claudeチームの行為は特異なケースではありません。今年4月には、Linux MintフォーラムもClaudeBotによる頻繁なアクセスを受け、フォーラムの動作が遅くなったり、クラッシュしたりしました。さらに、ClaudeやOpenAIのGPT以外にも、多くのAI企業がウェブサイトのrobots.txtの設定を無視し、強引にデータ収集を行っていると指摘する声もあります。
このような状況に対処するため、ウェブサイトの所有者は、追跡可能な、または固有の情報を含む偽のコンテンツをページに追加し、データが不正に収集されたかどうかを検出することを提案する声があります。iFixitは実際、この対策を講じており、彼らのデータがClaudeだけでなく、OpenAIにも収集されていることを発見しました。
この事件は、AI企業のデータ収集行為に関する広範な議論を引き起こしました。一方、AIの発展には大量のデータが不可欠です。他方、データ収集はウェブサイト所有者の権利と規則を尊重する必要があります。技術の進歩と著作権保護のバランスをどのように取るかは、業界全体が考えるべき問題です。