最近、Vectara社の機械学習チームは、DeepSeekシリーズの2つのモデルについて、詳細な幻覚テストを実施しました。その結果、DeepSeek-R1の幻覚率は14.3%と高く、前身であるDeepSeek-V3の3.9%を大幅に上回ることが判明しました。これは、推論能力の強化に伴い、DeepSeek-R1が元の情報と一致しない、または不正確な内容をより多く生成していることを示しています。この結果は、推論能力を強化した大規模言語モデル(LLM)の幻覚率に関する幅広い議論を引き起こしています。

DeepSeek

画像出典:AI生成、画像ライセンス提供元Midjourney

研究チームは、推論能力を強化したモデルは、一般的な大規模言語モデルよりも幻覚を起こしやすい可能性があると指摘しています。この現象は、DeepSeekシリーズと他の推論強化モデルの比較で特に顕著です。例えば、GPTシリーズでは、推論強化版のGPT-o1と標準版のGPT-4oの間の幻覚率の違いからも、この推測が裏付けられます。

image.png

これらのモデルのパフォーマンスを評価するために、研究者たちはVectara社のHHEMモデルとGoogleのFACTS手法を用いました。幻覚検出ツールであるHHEMは、DeepSeek-R1の幻覚率の増加を捉える際に高い感度を示しましたが、FACTSモデルはその点では比較的劣っていました。これは、LLMよりもHHEMの方が基準としてより有効である可能性を示唆しています。

image.png

image.png

注目すべきは、DeepSeek-R1は推論能力に優れている一方で、幻覚率も高いということです。これは、推論強化モデルが処理する必要がある複雑な論理と関係がある可能性があります。モデルの推論の複雑さが増すにつれて、生成されるコンテンツの正確性が逆に影響を受ける可能性があります。研究チームはまた、DeepSeekのトレーニング段階で幻覚の問題の軽減に重点を置くことができれば、推論能力と正確性のバランスが取れる可能性があると強調しています。

image.png

推論強化モデルは一般的に高い幻覚率を示しますが、これは他の点で優れていないという意味ではありません。DeepSeekシリーズについては、今後の研究と最適化において、幻覚の問題を解決して全体的なモデル性能を向上させる必要があります。

参考文献:https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3