最近、プリンストン大学の研究チームが興味深い研究報告を発表しました。それによると、2024年8月時点で、ウィキペディアの新規記事のおよそ4.36%に、顕著なAI生成コンテンツが含まれていたとのことです。

この研究は、Creston Brooks氏、Samuel Eggert氏、Denis Peskoff氏の3人の学者によって共同で行われ、GPTZeroとBinocularsというツールを使ってAI生成コンテンツを検出しました。

ウィキペディア

研究によると、GPT-3.5の公開前と比較して、2024年のウィキペディア記事におけるAI生成コンテンツは明らかに増加しています。調査対象となった2909本の英語ウィキペディア記事のうち、GPTZeroは156本、Binocularsは96本をAI生成コンテンツとして識別し、両ツールで共通して識別された記事は45本でした。

AI生成コンテンツとして識別された記事は、一般的に質が低く、引用も少なく、ウィキペディアの知識ネットワークにうまく統合されていませんでした。中には、自己宣伝めいた内容で、個人や企業の宣伝に関わるものもあり、YouTubeの個人動画など、浅い引用しかされていないものも多く見られました。

政治関連の内容では、特定の主張を明らかに推進する記事が8本あり、アルバニアの歴史に関する編集合戦など、いくつかの論争のある話題が含まれていました。さらに、一部のユーザーは、大型言語モデル(LLM)を利用して、菌類、グルメ、スポーツなど、ニッチなテーマに関するコンテンツを作成しており、章ごとの書籍要約なども含まれていました。

この研究では、ウィキペディアのAI生成コンテンツをRedditと国連のプレスリリースと比較しており、RedditにおけるAI生成コンテンツはウィキペディアよりもはるかに少なく、1%未満であることがわかりました。これは、RedditではAI生成コンテンツが少ないか、検閲されているか、検出が困難であることを示唆しています。一方、国連のAI生成プレスリリースは顕著に増加しており、2022年以前の1%未満から2024年には20%に急増しています。

報告書は最後に、生成型LLMの台頭とともに、AI検出ツールも進化していることを強調しています。しかし、異なるテキストの長さ、分野、人と機械の統合などの異なる文脈において、これらの検出器を評価することには依然として課題が残されています。

AI生成コンテンツの課題に対処するためには、個人、教育機関、企業、政府は、人間の創造性を検証するための信頼できる方法を積極的に模索する必要があります。各国政府機関も、AI生成コンテンツの管理を強化する必要があります。例えば、中国は、インターネット上のAI生成情報の透明性を高めるための措置を講じており、関連する草案規定を発表しています。また、インドも今年、AI関連コンテンツのラベル付けに関する提案を発表しましたが、この提案は広範な議論と批判を引き起こしました。

要点:

📊 研究によると、ウィキペディアの新規記事のおよそ4.36%がAI生成コンテンツである。

🔍 RedditにおけるAI生成コンテンツは1%未満であり、顕著な違いを示している。

🌐 各国が、AI生成コンテンツに関する規制措置とラベル付け要件を探求している。