先日、Vectaraは「幻覚ランキング」と題するレポートを発表し、様々な大規模言語モデル(LLM)が短い文書を要約する際に幻覚を起こす頻度を比較しました。このランキングは、VectaraのHughes幻覚評価モデル(HHEM-2.1)を利用しており、このモデルは定期的に更新され、これらのモデルが要約に虚偽の情報を含める頻度を評価することを目的としています。最新のデータによると、レポートは、いくつかの一般的なモデルの幻覚率、事実の一致率、応答率、平均要約の長さといった重要な指標を示しています。

QQ_1740014003307.png

最新のランキングでは、GoogleのGemini 2.0シリーズが優れた性能を示しており、特にGemini-2.0-Flash-001は、0.7%という低い幻覚率でトップにランクインし、文書処理において事実上虚偽の情報を含めることがほとんどないことを示しています。さらに、Gemini-2.0-Pro-ExpとOpenAIのo3-mini-high-reasoningモデルも、それぞれ0.8%の幻覚率でそれに続いており、同様に優れた性能を示しています。

レポートでは、多くのモデルの幻覚率が上昇しているものの、大部分は低いレベルに留まっており、多くのモデルの事実の一致率は95%以上であることも示されています。これは、これらのモデルが情報の正確性を確保する能力が比較的高いことを示しています。特に注目すべきは、モデルの応答率が全体的に高く、ほとんどのモデルの応答率が100%に近いことです。これは、これらのモデルが質問を理解し、それに応答する際に優れた性能を示していることを意味します。

また、ランキングでは、様々なモデルの平均要約の長さも示されており、モデルの情報濃縮能力の違いが分かります。全体として、このランキングは、研究者や開発者にとって重要な参考データを提供するだけでなく、一般ユーザーが現在の大規模言語モデルの性能を理解する上でも役立ちます。

具体的なランキングはこちら: https://github.com/vectara/hallucination-leaderboard

要点:

🌟 最新の幻覚ランキングは、様々な大規模言語モデルの文書要約における性能を評価しました。

🔍 Google Geminiシリーズのモデルは優れた性能を示し、幻覚率はわずか0.7%です。

📊 モデルの応答率は100%近くであり、情報処理における高い効率性を示しています。