हाल ही में, Vectara की मशीन लर्निंग टीम ने DeepSeek श्रृंखला के दो मॉडलों का गहन भ्रम परीक्षण किया, जिसमें पता चला कि DeepSeek-R1 की भ्रम दर 14.3% तक पहुंच गई है, जो इसके पूर्ववर्ती DeepSeek-V3 की 3.9% से काफी अधिक है। यह दर्शाता है कि, संवर्धित अनुमान प्रक्रिया में, DeepSeek-R1 ने अधिक असंगत या मूल जानकारी से भिन्न सामग्री उत्पन्न की। इस परिणाम ने बड़े भाषा मॉडल (LLM) में अनुमान संवर्धन के दौरान भ्रम दर पर व्यापक चर्चा को जन्म दिया।

DeepSeek

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र प्राधिकरण सेवा प्रदाता Midjourney

अनुसंधान टीम ने指出 किया कि अनुमान संवर्धित मॉडल सामान्य बड़े भाषा मॉडल की तुलना में भ्रम उत्पन्न करने में अधिक संवेदनशील हो सकते हैं। यह घटना DeepSeek श्रृंखला और अन्य अनुमान संवर्धित मॉडलों की तुलना में विशेष रूप से स्पष्ट है। उदाहरण के लिए, GPT श्रृंखला में, अनुमान संवर्धित GPT-o1 और सामान्य संस्करण GPT-4o के बीच भ्रम दर का अंतर भी इस अनुमान को सत्यापित करता है।

image.png

इन दो मॉडलों के प्रदर्शन का मूल्यांकन करने के लिए, शोधकर्ताओं ने Vectara के HHEM मॉडल और Google के FACTS विधि का उपयोग किया। HHEM, एक विशेष भ्रम पहचान उपकरण के रूप में, DeepSeek-R1 की बढ़ी हुई भ्रम दर को पकड़ने में उच्च संवेदनशीलता दिखाता है, जबकि FACTS मॉडल इस मामले में अपेक्षाकृत कमजोर प्रदर्शन करता है। यह हमें बताता है कि संभवतः HHEM LLM की तुलना में मानक के रूप में अधिक प्रभावी है।

image.png

image.png

यह ध्यान देने योग्य है कि, भले ही DeepSeek-R1 अनुमान क्षमताओं में उत्कृष्ट प्रदर्शन करता है, लेकिन इसके साथ उच्च भ्रम दर भी है। यह संभवतः उस जटिल तर्क से संबंधित है जिसे अनुमान संवर्धित मॉडल को संभालना पड़ता है। जैसे-जैसे मॉडल की अनुमानित जटिलता बढ़ती है, उत्पन्न सामग्री की सटीकता पर नकारात्मक प्रभाव पड़ सकता है। शोध टीम ने यह भी जोर दिया कि यदि DeepSeek प्रशिक्षण चरण में भ्रम की समस्या को कम करने पर अधिक ध्यान केंद्रित कर सके, तो शायद यह अनुमान क्षमता और सटीकता के बीच एक अच्छा संतुलन स्थापित कर सकेगा।

image.png

हालांकि अनुमान संवर्धित मॉडल आमतौर पर उच्च भ्रम दर दिखाते हैं, लेकिन इसका यह अर्थ नहीं है कि वे अन्य क्षेत्रों में लाभहीन हैं। DeepSeek श्रृंखला के लिए, अभी भी आगे के शोध और अनुकूलन में भ्रम की समस्या को हल करना आवश्यक है ताकि समग्र मॉडल प्रदर्शन को बढ़ाया जा सके।

संदर्भ सामग्री: https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3