研究で明らかになった、AI生成論文における特定語句の乱用

近10年間の科学論文分析によると、研究者らは、人工知能モデルが特定の「スタイル」語彙を乱用していることを発見しました。これらの語彙は数年前まではほとんど使用されていませんでした。

査読前段階にある新たな研究において、研究者らは流行病学と同様の斬新な手法を用い、生物医学論文における「過剰な語彙使用」を分析することで、大規模言語モデルが特定の語彙を乱用する傾向を明らかにしました。その結果は、学術界における人工知能の影響について興味深い知見を提供しており、2024年には少なくとも10％の要約が、大規模言語モデルを使用して処理されたことを示唆しています。

脳　大規模モデル　AI（画像提供：AI合成）

画像出典：AI生成画像、画像ライセンス提供元Midjourney

この研究は、PubMedで2010年から2024年までに発表された1400万件の生物医学論文要約に関する広範な分析です。研究者らは、ChatGPTなど大規模言語モデルが広く商用化される前に発表された論文を基準として、それ以降に発表された論文を比較しました。「まれ」とされていた「深い」などの語彙は、現在、以前の25倍も使用頻度が増加しており、「示す」「強調する」などの他の語彙でも同様の増加が見られました。一方、「潜在的な」「発見」「重要な」などの「一般的な」語彙の使用頻度も増加しており、最大で4％増加しました。

研究者らは、このような著しい増加は、緊急のグローバルイベントによる説明なしでは、基本的に前例がないと指摘しています。2013年から2023年までの過剰な語彙には、「エボラ」、「コロナウイルス」、「ロックダウン」など、現実の出来事に密接に関連する名詞が含まれていました。しかし、2024年の過剰な語彙は、ほとんどが「スタイル」語彙でした。数量的には、2024年の280個の過剰な「スタイル」語彙のうち、3分の2が動詞、約5分の1が形容詞でした。

これらの過剰なスタイル語彙をChatGPT使用の「マーカー」として、研究者らは、中国、韓国、台湾などの非英語圏で発表された論文のおよそ15％が現在人工知能によって処理されており、英国などの英語圏ではその割合が3％であると推定しています。したがって、大規模言語モデルは、英語が主要言語である分野で非ネイティブスピーカーが成功するための有効なツールとなる可能性があります。

要点：
🔍　生物医学論文の分析を通じて、研究者らは人工知能モデルが特定の「スタイル」語彙を乱用しており、これらの語彙は数年前まではほとんど使用されていなかったことを発見しました。
🔍　大規模言語モデルの広範な商用化により、一部の語彙の使用頻度が著しく増加しており、人工知能が学術界に前例のない影響を与えている可能性を示唆しています。
🔍　非英語圏で発表された論文のうち、人工知能によって処理された論文の割合は約15％に上り、大規模言語モデルは英語が主要言語である分野で非ネイティブスピーカーが成功するための有効なツールとなる可能性を示唆しています。