最近、Trilegangers社のCEOであるOleksandr Tomchuk氏は、同社のECサイトがダウンしたという警告を受けました。調査の結果、犯人はOpenAIのボットであることが判明し、同社の巨大なウェブサイト全体を執拗にクロールしようとしていました。このウェブサイトには65,000種類以上の商品があり、それぞれにページがあり、少なくとも3枚の写真が掲載されています。OpenAIは「数万」ものサーバーリクエストを送信し、すべてのコンテンツ、数十万枚の写真とその詳細な説明をダウンロードしようとしていました。

Tomchuk氏によると、OpenAIのクローラーは彼らのウェブサイトを破壊しており、これは事実上DDoS攻撃であるとのことです。同社は3Dオブジェクトファイルと写真(手、髪、肌、全身など)を、3Dアーティスト、ビデオゲーム制作者、デジタルでリアルな人間の特性を再現する必要があるすべての人々に販売しています。

Trilegangersのウェブサイトは同社の事業そのものです。同社は10年以上かけて、いわゆるネット上で最大の「人間のデジタルアバター」データベース、つまりリアルな人体モデルのスキャンから作成された3D画像ファイルのデータベースを構築してきました。

ウクライナに本社を置くTomchuk氏のチームは、フロリダ州タンパにも拠点を持ち、ウェブサイトには、許可なく画像をクロールすることを禁止する利用規約ページがあります。しかし、それだけでは効果がありませんでした。ウェブサイトは正しく設定されたrobot.txtファイルを使用する必要があり、そのタグでOpenAIのボットGPTBotにウェブサイトにアクセスしないよう明確に指示する必要があります。

openai-crawler-log-2-e1736526937976.jpg

robot.txt、別名robots.txtは、検索エンジンがウェブページをインデックス作成する際に、クロールすべきでないコンテンツを指示するために作成されたものです。OpenAIは、情報ページで、独自のクロール禁止タグを設定した場合、そのようなファイルは尊重されると述べていますが、更新されたrobot.txtファイルの認識には最大24時間かかる可能性があると警告しています。

Tomchuk氏によると、ウェブサイトがrobot.txtを正しく使用していない場合、OpenAIや他の企業は自由にデータを取得できると考えているとのことです。これは任意のシステムではありません。

さらに悪いことに、TrilegangersはOpenAIのボットによってアメリカ営業時間中に強制的にオフラインにされただけでなく、Tomchuk氏は、このボットによるすべてのCPUとダウンロードアクティビティのために、AWSの請求額が大幅に増加すると予想しています。

robot.txtも万能ではありません。AI企業は自主的に遵守しています。昨年夏、Perplexityという別のAIスタートアップ企業が、Perplexityがrobot.txtを遵守していないといういくつかの証拠のためにWiredの調査で注目を集めた事件は、かなり有名です。

Tomchuk氏は、OpenAIに連絡して問い合わせる方法を見つけられなかったと言います。OpenAIはTechCrunchからのコメント要請に応答しませんでした。OpenAIは、これまで、長年約束されてきたオプトアウトツールを提供していません。

Triplegangersにとって、これは特に難しい問題です。「私たちの事業では、権利の問題が非常に深刻です。なぜなら、私たちは実在の人物をスキャンしているからです」と彼は言います。GDPRなどの欧州の法律によれば、「彼らは誰かの写真を勝手にインターネットで撮影して使用することはできません」。

ハッカー、サイバー攻撃、コードを書く

皮肉なことに、OpenAIボットの貪欲さによって、Triplegangersは自社の脆弱性に気づきました。彼が言うには、もしボットがもっと穏やかにクロールしていれば、Tomchuk氏は決して気づかなかったでしょう。

「これは恐ろしいことです。なぜなら、これらの企業はデータを取得するための抜け穴を利用しているように見えるからです。彼らは『robot.txtに私たちのタグで更新すれば、オプトアウトできます』と言いますが、これは企業主に、どのように阻止するかを理解する責任を負わせることになります」とTomchuk氏は述べています。

彼は、他の小規模なオンライン企業が、AIボットがウェブサイトの著作権のある資産を盗んでいるかどうかを調べる唯一の方法は、積極的に探すことであることを知ってほしいと思っています。もちろん、AIボットに脅かされているのは彼だけではありません。他のウェブサイトの所有者は最近、Business Insiderに、OpenAIボットがどのように彼らのウェブサイトを破壊し、AWS料金を増大させたかを語っています。

2024年には、この問題はさらに悪化するでしょう。デジタル広告会社DoubleVerifyの最新の調査によると、AIクローラーとスクレイピングツールにより、2024年の「一般的に無効なトラフィック」、つまり実際のユーザーからのトラフィックではないトラフィックが86%増加すると予測されています。