メタ、著作権侵害疑惑：LibGenデータセットを用いたAIトレーニングと著作権情報の削除

Meta社は、著作権侵害に関連する訴訟に直面しています。原告弁護士は、Meta社のマーク・ザッカーバーグCEOが、海賊版電子書籍と記事のデータセットをLlama AIモデルの学習に使用することを承認したと主張しています。この訴訟は、無許可で著作権のある作品をAIモデルの学習に使用したとして告発されている複数のテクノロジー大手に対する、多くの著作権訴訟の一つです。

12月3日にカリフォルニア州北部地区連邦地方裁判所に提出された書類の中で、原告は昨年末の証言を改めて主張しました。この証言では、ザッカーバーグがLlama関連の学習にLibGenというデータセットの使用を承認したことが明らかになっています。LibGenは、膨大な数の著作権のある学術出版物を提供する「リンクアグリゲーター」とみなされています。このウェブサイトは著作権侵害のために何度も訴訟を起こされ、閉鎖命令を受けていますが、Cengage LearningやMcGraw Hillなどの大手出版社の作品を引き続き提供しています。

ホログラフィック投影ロボットデザイン (3)

画像出典：AI生成画像、画像ライセンス提供元Midjourney

書類によると、Meta社内部の従業員はLibGenを「海賊版であると認識しているデータセット」と認め、その使用が規制当局との交渉において不利な影響を与える可能性があると述べています。特に懸念されるのは、Meta社のエンジニアであるNikolay Bashlykovが、LibGenの電子書籍から「著作権」や「謝辞」などの著作権情報を削除するスクリプトを作成したとされていることです。Meta社はまた、著作権侵害を隠蔽するために、科学雑誌の記事から著作権表示とソースメタデータを削除したとされています。

さらに物議を醸しているのは、Meta社がTorrentingによってLibGenのコンテンツをダウンロードし、これらの著作権侵害されたファイルの拡散を助けたとされていることです。Torrentingは、ダウンロード者がファイルを同時にアップロードしながらコンテンツを共有する、ネットワーク上でファイルを配布する方法です。原告弁護士は、Meta社はTorrentingに参加することで、事実上、別の形式の著作権侵害を行ったと主張しています。Meta社のエンジニアは、この行為が違法であると異議を唱えましたが、Meta社はAI責任者のAhmad Al-Dahle氏の支持の下、この行為を継続しました。

これらの告発は、昨年4月のニューヨーク・タイムズの報道と明らかに一致しており、同報道はMeta社がAIデータ収集においてずさんな方法を取っていたことを示唆していました。報道によると、Meta社はアフリカの請負業者に書籍の要約をまとめさせ、出版社のサイモン＆シュスターを買収することも検討していました。しかし、Meta社の幹部は、著作権ライセンスの交渉に時間がかかりすぎると考え、フェアユース原則を主要な弁護理由としていました。

現在、訴訟の審理はまだ結論が出ておらず、Meta社の初期のLlamaモデルのみが対象となっています。2023年に裁判所は、AI関連のいくつかの著作権訴訟を、原告が侵害行為を証明できなかったとして棄却しましたが、本件の告発は依然としてMeta社に不利な影響を与える可能性があります。主審判事であるヴィンス・チャブリア判事は、水曜日の命令で、Meta社が大部分の書類の削除を要求したことを棄却し、これらの書類の削除は明らかにネガティブな宣伝を避けるためであり、機密性の高い商業情報の保護のためではないと述べています。

今回の訴訟は、テクノロジー企業が著作権のある作品をAIモデルの学習に使用する方法、特にフェアユースと著作権保護の境界線に関する広範な議論を引き起こし続けるでしょう。

AIニュース

メタ、著作権侵害疑惑：LibGenデータセットを用いたAIトレーニングと著作権情報の削除

AIbase基地

関連AIニュースの推奨

元OpenAI最高技術責任者、ムラーティ氏が新会社設立、評価額90億ドルへ

大手出版社14社がAIスタートアップCohere社を著作権侵害で提訴

Meta、大規模人員削減計画に着手 AI分野のトップ人材獲得目指す

Meta、数TBの海賊版電子書籍を違法ダウンロードか、メール流出で波紋