हाल ही में, कॉर्नेल विश्वविद्यालय और अन्य संस्थानों के शोधकर्ताओं ने GPT-4o, Claude और Gemini सहित कई जनरेटिव AI मॉडल का हॉल्यूसीनेशन बेंचमार्क परीक्षण किया। अध्ययन में पाया गया कि सबसे उन्नत मॉडल भी केवल लगभग 35% समय बिना हॉल्यूसीनेशन टेक्स्ट उत्पन्न कर सके, जो यह दर्शाता है कि AI की विश्वसनीयता में सुधार की आवश्यकता है।

शोधकर्ताओं ने कानून, स्वास्थ्य, इतिहास आदि विषयों के प्राधिकृत स्रोतों के माध्यम से तथ्यों की जांच की, और उन प्रश्नों का एक सेट डिज़ाइन किया जो विकिपीडिया द्वारा कवर नहीं किए गए थे। परिणामों से पता चला कि OpenAI के मॉडल का समग्र प्रदर्शन सबसे अच्छा था, लेकिन पुराने GPT-3.5 की तुलना में सुधार सीमित था। दिलचस्प बात यह है कि मॉडल का आकार हॉल्यूसीनेशन की आवृत्ति को निर्धारित नहीं करता है, छोटे मॉडल जैसे Claude3Haiku और बड़े मॉडल का प्रदर्शन समान था।

AI आर्टिफिशियल इंटेलिजेंस रोबोट

छवि स्रोत नोट: छवि AI द्वारा उत्पन्न, छवि लाइसेंस सेवा प्रदाता Midjourney

शोध सह-लेखक झाओ वेंटिंग ने बताया कि ऑनलाइन खोज करने में सक्षम मॉडल भी "गैर-विकि" समस्याओं को हल करने में कठिनाई महसूस करते हैं, जो विकिपीडिया के मॉडल पर गहरा प्रभाव को दर्शाता है। उन्होंने अनुमान लगाया कि हॉल्यूसीनेशन की समस्या "काफी लंबे समय तक" जारी रहेगी, जिसका एक हिस्सा इस बात पर है कि प्रशिक्षण डेटा स्वयं में गलत जानकारी शामिल कर सकता है।

एक अस्थायी समाधान मॉडल के उत्तर देने की दर को बढ़ाना है। Claude3Haiku केवल 72% प्रश्नों का उत्तर देकर "सबसे ईमानदार" मॉडल बन गया। हालांकि, यह रणनीति उपयोगकर्ता अनुभव को प्रभावित कर सकती है।

झाओ ने सुझाव दिया कि हॉल्यूसीनेशन को पूरी तरह से समाप्त करना यथार्थवादी नहीं हो सकता, लेकिन मानव तथ्य जांच, संदर्भ प्रदान करने आदि के माध्यम से समस्या को कम किया जा सकता है। उन्होंने संबंधित नीतियों को बनाने की अपील की, ताकि मानव विशेषज्ञ AI द्वारा उत्पन्न जानकारी की पुष्टि करने की प्रक्रिया में भाग ले सकें।