बड़े भाषा मॉडल (LLM) का उदय, विशेष रूप से ChatGPT जैसे अनुप्रयोगों की लोकप्रियता, मानव-मशीन इंटरैक्शन के तरीके को पूरी तरह से बदल दिया है। ये मॉडल संगठित और व्यापक पाठ उत्पन्न करने में सक्षम हैं, जो प्रभावशाली है। हालांकि, अपनी शक्तियों के बावजूद, LLM "भ्रम" उत्पन्न करने के लिए प्रवृत्त होते हैं, अर्थात् ऐसा सामग्री उत्पन्न करना जो वास्तविक लगती है लेकिन वास्तव में काल्पनिक, निरर्थक या संकेत के साथ असंगत होती है।

image.png

हार्वर्ड विश्वविद्यालय के शोधकर्ताओं ने LLM के "भ्रम" के इस fenómeno का गहराई से अध्ययन किया, और इसके मूल को LLM के कार्यप्रणाली में पाया। LLM विशाल पाठ डेटा पर मशीन लर्निंग के माध्यम से संभाव्यता मॉडल का निर्माण करते हैं और शब्दों के सह-उपस्थिति की संभाव्यता के आधार पर अगले शब्द की भविष्यवाणी करते हैं। दूसरे शब्दों में, LLM वास्तव में भाषा के अर्थ को समझ नहीं रहे हैं, बल्कि सांख्यिकीय संभावनाओं के आधार पर भविष्यवाणी कर रहे हैं।

शोधकर्ताओं ने LLM की तुलना "क्राउडसोर्सिंग" से की है, यह मानते हुए कि LLM वास्तव में "नेटवर्क सहमति" का उत्पादन कर रहा है। जैसे विकिपीडिया या Reddit जैसे प्लेटफार्मों पर, LLM बड़ी मात्रा में पाठ डेटा से जानकारी निकालता है और सबसे सामान्य उत्तर उत्पन्न करता है। चूंकि अधिकांश भाषाओं का उपयोग दुनिया का वर्णन करने के लिए किया जाता है, इसलिए LLM द्वारा उत्पन्न उत्तर अक्सर सटीक होते हैं।

हालांकि, जब LLM अस्पष्ट, विवादास्पद या सहमति की कमी वाले विषयों का सामना करते हैं, तो "भ्रम" उत्पन्न होता है। इस परिकल्पना की पुष्टि के लिए, शोधकर्ताओं ने विभिन्न विषयों पर विभिन्न LLM के प्रदर्शन का परीक्षण करने के लिए एक श्रृंखला के प्रयोगों को डिज़ाइन किया। प्रयोग के परिणाम बताते हैं कि LLM सामान्य विषयों को संभालने में अच्छा प्रदर्शन करते हैं, लेकिन अस्पष्ट या विवादास्पद विषयों को संभालने में सटीकता स्पष्ट रूप से घट जाती है।

यह अध्ययन दर्शाता है कि LLM एक शक्तिशाली उपकरण हैं, लेकिन उनकी सटीकता प्रशिक्षण डेटा की गुणवत्ता और मात्रा पर निर्भर करती है। LLM का उपयोग करते समय, विशेष रूप से अस्पष्ट या विवादास्पद विषयों को संभालते समय, उनके आउटपुट परिणामों के प्रति सावधानी बरतनी चाहिए। यह अध्ययन LLM के भविष्य के विकास के लिए एक दिशा भी प्रदान करता है, अर्थात् LLM को अस्पष्ट और विवादास्पद विषयों को संभालने की क्षमता में सुधार की आवश्यकता है, और उनके आउटपुट परिणामों की व्याख्या की क्षमता बढ़ाने की आवश्यकता है।

पत्र का पता: https://dl.acm.org/doi/pdf/10.1145/3688007