हालिया शोध से पता चलता है कि जबकि आर्टिफिशियल इंटेलिजेंस प्रोग्रामिंग और सामग्री निर्माण जैसे क्षेत्रों में उत्कृष्ट प्रदर्शन कर रहा है, जटिल ऐतिहासिक मुद्दों को संभालने में अभी भी इसकी कमी है। हाल ही में NeurIPS सम्मेलन में प्रस्तुत एक अध्ययन से पता चला है कि यहां तक कि सबसे उन्नत बड़े भाषा मॉडल (LLM) भी ऐतिहासिक ज्ञान परीक्षण में संतोषजनक परिणाम प्राप्त करने में कठिनाई महसूस करते हैं।

शोध टीम ने Hist-LLM नामक एक परीक्षण मानक विकसित किया, जिसने OpenAI के GPT-4, मेटा के Llama और गूगल के Gemini जैसे शीर्ष भाषा मॉडलों का मूल्यांकन किया। परीक्षण Seshat वैश्विक ऐतिहासिक डेटाबेस पर आधारित था, और परिणाम निराशाजनक थे: सबसे अच्छे प्रदर्शन करने वाले GPT-4Turbo की सटीकता केवल 46% थी।

AI रोबोट लेख लिख रहा है

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र प्राधिकरण सेवा प्रदाता Midjourney

लंदन विश्वविद्यालय कॉलेज के सहायक प्रोफेसर मारिया डेलरियो-चानोना ने कहा: "ये मॉडल बुनियादी ऐतिहासिक तथ्यों में अच्छा प्रदर्शन करते हैं, लेकिन पीएचडी स्तर के गहन ऐतिहासिक शोध में ये असमर्थ हैं।" शोध में पाया गया कि AI अक्सर विवरण में गलतियाँ करता है, जैसे कि प्राचीन मिस्र के कुछ काल में विशेष सैन्य तकनीक या स्थायी सेना की उपलब्धता का गलत आकलन करना।

शोधकर्ताओं का मानना है कि यह खराब प्रदर्शन AI मॉडलों की प्रवृत्ति के कारण है, जो मुख्यधारा के ऐतिहासिक कथाओं से निष्कर्ष निकालते हैं और अधिक बारीक ऐतिहासिक विवरणों को सटीक रूप से समझने में कठिनाई महसूस करते हैं। इसके अलावा, अध्ययन में यह भी पाया गया कि ये मॉडल सहारा के दक्षिण अफ्रीकी क्षेत्रों जैसे क्षेत्रों के ऐतिहासिक मुद्दों को संभालने में और भी खराब प्रदर्शन करते हैं, जो प्रशिक्षण डेटा में संभावित पूर्वाग्रहों को उजागर करता है।

जटिलता विज्ञान केंद्र (CSH) के शोध प्रमुख पीटर टुर्चिन ने कहा कि यह खोज यह दर्शाती है कि कुछ विशेष क्षेत्रों में, AI अभी भी मानव विशेषज्ञों को प्रतिस्थापित नहीं कर सकता। हालांकि, शोध टीम ऐतिहासिक अनुसंधान में AI के उपयोग के संभावित लाभों के प्रति आशावादी बनी हुई है, और वे बेहतर मॉडलों के विकास में मदद करने के लिए परीक्षण मानकों में सुधार कर रहे हैं।