最近、マサチューセッツ州出身のYouTuber、デビッド・ミレット(David Millette)氏が、OpenAIに対して集団訴訟を起こしました。OpenAIが許可なく数百万本のYouTube動画の文字起こしコンテンツを、自社の生成AIモデルの学習に使用したと主張しています。ミレット氏の弁護士がカリフォルニア州北部地区連邦地方裁判所に提出した訴状によると、OpenAIは彼の動画を含む多くのクリエイターのコンテンツを密かに文字起こしし、ChatGPTなどの生成AI製品のモデルを学習させたとして非難されています。
訴状では、OpenAIがこれらのデータを集めることで、クリエイターの仕事から明らかに利益を得ており、それは著作権法とYouTubeの利用規約に違反しているとしています。これらの規約では、動画をサービスとは無関係の用途に使用することを禁じています。ミレット氏の弁護士は訴状の中で、OpenAIのAI製品は、同意を得ずに、いかなるクレジットや報酬も与えられずに使用された学習データによって、その価値を高めていると述べています。
ミレット氏を代理する法律事務所は陪審裁判を求めており、影響を受ける可能性のあるすべてのYouTubeユーザーとクリエイターの損害賠償として、500万ドル以上の賠償を求めています。
生成AIモデルは真の知能を持たないことは周知の事実です。それらは膨大なデータサンプル(映画、録音、論文など)を処理することで、データ出現の可能性とそのパターンを学習します。多くのモデルの学習データは、インターネット上の公開ウェブサイトやデータセットから取得されています。企業はデータ収集が「フェアユース」の原則に合致していると主張していますが、多くの著作権保有者はこれに異議を唱え、訴訟によってそのような行為を止めようとしています。
動画の文字起こしコンテンツは、他のデータソースが枯渇するにつれて、重要な学習データとなっています。Originality.AIのデータによると、現在、世界の上位35%以上のウェブサイトがOpenAIのウェブクローラーをブロックしています。さらに、マサチューセッツ工科大学(MIT)のデータソースイニシアチブの研究によると、約25%の高品質データソースが利用制限されており、AIモデルの学習データはますます不足しています。
特筆すべきは、OpenAIのWhisperモデルが、より多くの学習データを集めるために、動画の音声を文字起こしすることに特化していることです。ニューヨークタイムズの報道によると、OpenAIチームは100万時間以上のYouTube動画を文字起こしし、それらの文字起こしテキストをGPT-4モデルの学習に使用しました。これにより、YouTubeの規定に違反している可能性があるという社内での議論が引き起こされました。
繰り返しになりますが、マサチューセッツ州出身のYouTuber、デビッド・ミレット(David Millette)氏が、OpenAIに対して集団訴訟を起こしました。OpenAIが許可なく数百万本のYouTube動画の文字起こしコンテンツを、自社の生成AIモデルの学習に使用したと主張しています。ミレット氏の弁護士がカリフォルニア州北部地区連邦地方裁判所に提出した訴状によると、OpenAIは彼の動画を含む多くのクリエイターのコンテンツを密かに文字起こしし、ChatGPTなどの生成AI製品のモデルを学習させたとして非難されています。
訴状では、OpenAIがこれらのデータを集めることで、クリエイターの仕事から明らかに利益を得ており、それは著作権法とYouTubeの利用規約に違反しているとしています。これらの規約では、動画をサービスとは無関係の用途に使用することを禁じています。ミレット氏の弁護士は訴状の中で、OpenAIのAI製品は、同意を得ずに、いかなるクレジットや報酬も与えられずに使用された学習データによって、その価値を高めていると述べています。
ミレット氏を代理する法律事務所は陪審裁判を求めており、影響を受ける可能性のあるすべてのYouTubeユーザーとクリエイターの損害賠償として、500万ドル以上の賠償を求めています。
生成AIモデルは真の知能を持たないことは周知の事実です。それらは膨大なデータサンプル(映画、録音、論文など)を処理することで、データ出現の可能性とそのパターンを学習します。多くのモデルの学習データは、インターネット上の公開ウェブサイトやデータセットから取得されています。企業はデータ収集が「フェアユース」の原則に合致していると主張していますが、多くの著作権保有者はこれに異議を唱え、訴訟によってそのような行為を止めようとしています。
動画の文字起こしコンテンツは、他のデータソースが枯渇するにつれて、重要な学習データとなっています。Originality.AIのデータによると、現在、世界の上位35%以上のウェブサイトがOpenAIのウェブクローラーをブロックしています。さらに、マサチューセッツ工科大学(MIT)のデータソースイニシアチブの研究によると、約25%の高品質データソースが利用制限されており、AIモデルの学習データはますます不足しています。
特筆すべきは、OpenAIのWhisperモデルが、より多くの学習データを集めるために、動画の音声を文字起こしすることに特化していることです。ニューヨークタイムズの報道によると、OpenAIチームは100万時間以上のYouTube動画を文字起こしし、それらの文字起こしテキストをGPT-4モデルの学習に使用しました。これにより、YouTubeの規定に違反している可能性があるという社内での議論が引き起こされました。
要点:
🔍 YouTuberのデビッド・ミレット氏が、OpenAIに対し、許可なく動画の文字起こしコンテンツをAI学習に使用したとして集団訴訟を起こす。
💰 ミレット氏は、影響を受けたすべてのYouTuberを代表して、500万ドル以上の賠償を求める。
🚫 生成AIモデルのデータソースに対する制限が厳しくなっており、多くの主要なウェブサイトがOpenAIのクローラーをブロックしている。