人工知能の急速な発展の裏で、一部のテクノロジー大手は物議を醸す手段を密かに採用しています。彼らは書籍、ウェブサイト、写真、ソーシャルメディアの投稿を「吸い尽くす」だけでなく、クリエイターに無断でYouTube動画を大量に使用してAIモデルをトレーニングしています。

私の動画を誰が触ったのか?

Proof Newsの調査によると、Anthropic、NVIDIA、Apple、Salesforceなどのシリコンバレー大手は、173,536本のYouTube動画の字幕データを使用してAIをトレーニングしました。これらの動画は48,000以上のチャンネルから収集されたもので、YouTubeは許可なくプラットフォームから素材を収集することを明確に禁止しています。

youtube

これらのデータセットは「YouTube字幕」と呼ばれ、Khan Academy、MIT、ハーバードなどの教育およびオンライン学習チャンネルからの動画字幕が含まれています。ウォールストリートジャーナル、NPR、BBCの動画もAIトレーニングに使用され、さらには「ステファン・コルバートの深夜番組」、「ジョン・オリバーのラスト・ウィーク・トゥナイト」、「ジミー・キンメル・ライブ」なども含まれていました。

Proof Newsはまた、MrBeast(2億8900万人の登録者、2本の動画が使用)、Marques Brownlee(1900万人の登録者、7本の動画が使用)、Jacksepticeye(約3100万人の登録者、377本の動画が使用)、PewDiePie(1億1100万人の登録者、337本の動画が使用)などのYouTubeスーパースターの動画もAIトレーニングに使用されていることを発見しました。「地球は平らだ」などの陰謀論を主張する素材もAIトレーニングに使用されていました。

クリエイターの怒り

「誰も私に『これを使いたい』なんて言ってきませんでした」と、「David Pakman Show」の司会者であるDavid Pakmanは述べています。彼のチャンネルは200万人以上の登録者と20億回以上の視聴回数を誇りますが、約160本の動画がYouTube字幕トレーニングデータセットに組み込まれていました。

Pakmanのチームはフルタイムで働き、毎日複数の動画を公開し、ポッドキャスト、TikTok動画、その他のプラットフォームのコンテンツも制作しています。AI企業が対価を支払うのであれば、Pakmanは自分のデータの使用に対して補償を受けるべきだと述べています。彼は、一部のメディア企業が最近、AIトレーニングに作品を使用するための報酬を得るための契約を結んでいることを指摘しています。

NebulaのCEOであるDave Wiskusはさらに率直に「これは盗みだ」と述べています。Nebulaはクリエイターが一部所有するストリーミングサービスであり、一部クリエイターの作品がYouTubeから取得され、AIトレーニングに使用されています。

データセットの「金鉱」

AI企業はより高品質なデータを入手することで競争しており、これが彼らがデータソースを秘密にする理由の1つです。今年初めに「ニューヨークタイムズ」は、Google(YouTubeの親会社)もプラットフォーム上の動画テキストをモデルのトレーニングに使用したと報じています。これに対して、広報担当者は、その使用はYouTubeクリエイターの同意を得て行われたと述べています。

Proof Newsの調査では、OpenAIも許可なくYouTube動画を使用していたことが判明しました。同社はこれを確認も否定もしていません。

法的および倫理的な課題

YouTube字幕やその他の音声テキスト変換データは、人々の会話や話し方を再現するモデルのトレーニングに役立つ潜在的な「金鉱」です。しかし、これは著作権と倫理に関する論争を引き起こしています。多くのクリエイターは、自分の作品がAIトレーニングに使用され、最終的には自分の仕事を奪われるのではないかと懸念しています。

Proof Newsはこの記事で言及されているチャンネルの所有者に連絡しようと試みました。多くの人がコメント要請に応じませんでした。私たちがインタビューしたクリエイターの中で、自分の情報が取得されたことに気づいていた人はおらず、ましてやどのように使用されたかを知っていた人はいませんでした。

未来の不確実性

多くのクリエイターは、未来への道に不確実性を感じています。フルタイムのYouTuberは定期的に巡回し、自分の作品が不正に使用されていないかを確認し、定期的に削除通知を送信しています。一部の人は、AIが早晩、自分たちが制作したコンテンツと同様のコンテンツを生成し、直接コピーするようになるのではないかと懸念しています。

「David Pakman Show」のクリエイターであるPakmanは最近、TikTokでAIの力を目の当たりにしました。彼はTucker Carlsonのクリップとしてタグ付けされた動画を発見しましたが、視聴した彼は衝撃を受けました。それはCarlsonのように聞こえましたが、言葉はすべてPakmanが自身のYouTube番組で語ったものであり、トーンまでそっくりでした。同様に彼を驚かせたのは、動画のコメント欄で、それが偽物であることに気づいていたのはわずか1人の視聴者だけだったことです――Carlsonの声を模倣してPakmanの台詞を語るもの。

「これは問題になるでしょう」と、Pakmanは偽の動画に関するYouTube動画で述べています。「ほぼ誰にでもこれを使えます。」

EleutherAIの共同設立者であるSid BlackはGitHubに、スクリプトを使用してYouTube字幕を作成したと書いています。このスクリプトは、YouTubeの視聴者が動画を視聴する際にブラウザでダウンロードする方法と同じ方法で、YouTubeの字幕をダウンロードします。GitHubのドキュメントによると、Blackは「面白いビデオブロガー」、「アインシュタイン」、「ブラック・プロテスタント」、「保護社会サービス」、「情報戦」、「量子色力学」、「ベン・シャピロ」、「ウイグル人」、「フルーツ主義者」、「ケーキレシピ」、「ナスカの地上絵」、「地球は平らだ」など、495個の検索語を使用して動画を収集しました。

YouTubeの利用規約では、「自動化された手段」による動画へのアクセスを禁止していますが、2000人以上のGitHubユーザーがこのコードを保存または承認しています。

「YouTubeがこのモジュールが機能するのを阻止したいのであれば、多くの方法があります」と、機械学習エンジニアのJonas DepoixはGitHubのディスカッションで書いています。彼はそこで、BlackがYouTube字幕にアクセスするために使用したコードを公開しました。「今のところ、それは起こっていません。」

メールで、DepoixはProof Newsに対し、数年前の大学生時代にプロジェクトのためにコードを作成して以来使用しておらず、人々がそれを有用だと発見したことに驚いていると述べました。彼はYouTubeの規則に関する質問には答えませんでした。

Googleの広報担当者であるJack Malonは、メールでコメント要請に応じ、「長年にわたり、不正使用や無許可のスクレイピングを防ぐために措置を講じてきた」と述べています。彼は、他の企業がこれらの素材をトレーニングデータとして使用していることについては回答しませんでした。

AI企業が使用した動画には、「Einstein Parrot」チャンネル(約15万人の登録者)の146本の動画が含まれています。アフリカオニオオハシの世話人であるMarcia(著名なオニオオハシの安全を危惧し、氏名を明かさないことを希望)は当初、AIモデルがオニオオハシの言葉を模倣することを吸収するのは面白いことだと考えていました。

「誰がオニオオハシの声を使いたいと思うだろうか?」とMarciaは言います。「しかしその後、彼が非常にうまく話していることに気づきました。彼は私の声で話します。だから彼は私を模倣し、そしてAIはオニオオハシを模倣しているのです。」

いったんデータがAIによって吸収されると、「忘れさせる」ことはできません。Marciaは、オニオオハシの情報がデジタルコピーを作成するなど、未知の方法で使用される可能性があることに不安を感じており、下品な言葉をしゃべらせることを懸念しています。

「私たちは未知の領域に入っています」とMarciaは言います。

参照リンク:

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/