査読は科学の発展の礎ですが、投稿数の急増に伴い、大きな負担を抱えています。この問題を軽減するため、大規模言語モデル(LLM)を活用した査読支援が試みられています。

しかし、最新の研究では、LLMによる査読における深刻なリスクが明らかになり、LLMによる査読の広範な導入にはまだ準備が整っていない可能性が示唆されています。

上海交通大学の研究チームは実験を通じて、著者が論文に巧妙な操作を加えることで、LLMの査読結果に影響を与えることができることを発見しました。この操作は、論文の最後に気づかれにくい小さな白い文字で、LLMに論文の長所を強調し、短所を軽視するように指示するなど、明示的なものがあります。

image.png

実験によると、この明示的な操作により、LLMによる評価が大幅に向上し、すべての論文が肯定的な評価を受けることになり、平均評価は5.34から7.99に上昇しました。さらに懸念されるのは、操作されたLLMの査読結果と人間の査読結果の一致度が著しく低下し、その信頼性が大きく損なわれていることです。

さらに、研究では、より隠れた操作方法である「暗黙的な操作」も発見されました。著者は論文の中で小さな欠点を積極的に明らかにすることで、LLMが査読時にそれらの欠点を繰り返すように誘導することができます。

image.png

人間の査読者と比較して、LLMはこの方法の影響を受けやすく、著者が述べた限界を繰り返す可能性は4.5倍も高くなります。この手法により、著者は反論段階で査読意見に容易に対応でき、不当な優位性を獲得することができます。

研究では、LLM査読における固有の欠陥も明らかにされました。

幻覚問題:LLMは、内容がなくても流暢な査読意見を生成します。例えば、空白の論文を入力しても、「この論文は斬新な方法を提案している」と主張します。論文のタイトルだけを入力しても、完全な論文とほぼ同じ評価を与える可能性があります。

image.png

長い論文への偏り:LLM査読システムは、長い論文ほど高い評価を与える傾向があり、論文の長さに基づくバイアスが存在する可能性を示唆しています。

著者バイアス:シングルブラインド査読において、著者が著名な機関に所属していたり、著名な学者であれば、LLM査読システムは肯定的な評価を与える傾向があり、査読プロセスにおける不公平感を増幅させる可能性があります。

これらのリスクをさらに検証するために、研究者たちはLlama-3.1-70B-Instruct、DeepSeek-V2.5、Qwen-2.5-72B-Instructなど、さまざまなLLMを用いて実験を行いました。実験の結果、これらのLLMはすべて暗黙的な操作のリスクがあり、同様の幻覚問題を抱えていることが示されました。研究者たちは、LLMのパフォーマンスは人間の査読結果との一致性に正の相関関係があることを発見しましたが、最も強力なモデルであるGPT-4oもこれらの問題を完全に回避することはできませんでした。

研究者たちは、ICLR2024の公開査読データを用いて大規模な実験を行いました。その結果、明示的な操作によって、LLMの査読意見は操作内容によってほぼ完全に制御され、一致率は90%に達し、すべての論文が肯定的なフィードバックを受けることになります。さらに、査読意見の5%を操作するだけで、上位30%のランキングから12%の論文が脱落する可能性があります。

研究者たちは、現在のLLMの堅牢性は、学術査読において人間の査読者を代替するには不十分であると強調しています。彼らは、これらのリスクについてより包括的な理解を得て、効果的な安全対策を確立するまでは、LLMによる査読を一時停止すべきだと提案しています。同時に、ジャーナルや会議の主催者は、著者の悪意のある操作や、査読者がLLMを人間の判断の代わりに使用することを特定し、対処するための検出ツールと説明責任のメカニズムを導入する必要があります。

研究者たちは、LLMは補助ツールとして、査読者に追加のフィードバックと洞察を提供することができますが、人間の判断に取って代わることは決してできないと考えています。彼らは、学術界がLLMによる査読支援システムをより堅牢で安全なものにするための方法を継続的に探求し、LLMの可能性を最大限に発揮しながら、リスクを回避することを求めています。

論文アドレス:https://arxiv.org/pdf/2412.01708