最近の調査で、数百ものウェブサイトがAI企業Anthropicによるコンテンツのスクレイピングを阻止しようとしていたものの、古い指示を使用していたために間違ったボットをブロックしていたことが判明しました。この現象は、変化の激しいAIクローラーのエコシステムに対応する上で、ウェブサイト所有者が直面する困難さを浮き彫りにしています。
ウェブクローラーを追跡するウェブサイトDark Visitorsの匿名運営者によると、多くのウェブサイトがAnthropic社が既に使用していない2つのボット「ANTHROPIC-AI」と「CLAUDE-WEB」をブロックしており、一方、同社の新しいクローラー「CLAUDEBOT」は知らないうちにアクセスを許可しているとのことです。これは、ウェブサイト所有者が古い指示をrobots.txtファイルにコピー&ペーストし、AI企業が新しい名前のクローラーを次々と導入していることが主な原因です。
画像出典:AI生成、画像ライセンス提供元Midjourney
この混乱はAnthropicに限ったことではありません。Dark Visitorsの運営者は、AppleやMetaなどのテクノロジー大手も最近新しいプロキシを追加しており、ウェブサイト所有者が手動でこれらの変化に対応することがほぼ不可能になっていると指摘しています。さらに懸念されるのは、一部のAI企業が、スクレイピングすべきでないウェブサイトを隠密裏にスクレイピングしたり、robots.txtファイルの指示を完全に無視したりしていることです。
この状況は様々な問題を引き起こしています。一部のウェブサイトはクローラーを完全にブロックしたり、特定のクローラーのみを許可したりするようになり、これは検索エンジンのインデックス、インターネットアーカイブ、学術研究に影響を与える可能性があります。同時に、一部のウェブサイトは、AIクローラーによる大規模なアクセスによる技術的および経済的な圧力に直面しています。例えば、修理マニュアルサイトのiFixitは、Anthropicのクローラーが1日に約100万回もウェブサイトにアクセスしたと報告しています。また、別のサービスプロバイダーであるRead the Docsは、あるクローラーが1日に10TBのファイルにアクセスし、高額な帯域費用が発生したと述べています。
データソースイニシアチブ(Data Provenance Initiative)の調査では、コンテンツ制作者とウェブサイト所有者がAIツールのトレーニングを阻止しようとする際に直面する普遍的な混乱がさらに明らかになっています。この調査では、AIスクレイピングツールを阻止する責任は完全にウェブサイト所有者にあると指摘しており、クローラー数の増加と頻繁な変化によって、このタスクは非常に困難になっています。
この複雑な状況に対処するため、専門家はウェブサイト管理者に対し、存在しないプロキシを誤ってブロックする可能性があっても、疑わしいAIクローラーを積極的にブロックするよう推奨しています。同時に、制限のないスクレイピングを防ぐために、より多くの制作者がコンテンツを有料の壁の後ろに移行すると予測する声もあります。