कृत्रिम बुद्धिमत्ता की दुनिया में, उच्च माध्यमिक परीक्षा अब केवल मानवों का मंच नहीं रह गई है। हाल ही में, शंघाई आर्टिफिशियल इंटेलिजेंस प्रयोगशाला ने एक अनोखी "उच्च माध्यमिक परीक्षा" के माध्यम से हमें एआई की शैक्षणिक क्षमता का अनुभव कराया। उन्होंने OpenCompass मूल्यांकन प्रणाली का उपयोग किया, जिससे GPT-4o सहित 7 एआई मॉडल को हिंदी, गणित और अंग्रेजी की समग्र क्षमताओं का परीक्षण किया गया।
चित्र स्रोत नोट: चित्र एआई द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney
इस परीक्षण में राष्ट्रीय नए पाठ्यक्रम मानक I卷 का उपयोग किया गया, यह सुनिश्चित करते हुए कि सभी भाग लेने वाले ओपन-सोर्स मॉडल उच्च माध्यमिक परीक्षा से पहले ही ओपन-सोर्स किए गए थे, जिससे परीक्षण की निष्पक्षता सुनिश्चित हो सके। इसके अलावा, इन एआई के "उत्तर पत्रों" का मूल्यांकन उन शिक्षकों द्वारा किया गया, जिनका उच्च माध्यमिक परीक्षा मूल्यांकन में अनुभव था, ताकि वास्तविक मूल्यांकन मानकों के करीब पहुंचा जा सके।
मूल्यांकन में भाग लेने वाले मॉडल विभिन्न पृष्ठभूमियों से आए हैं, जैसे कि फ्रांस की एआई स्टार्टअप Mistral का ओपन-सोर्स Mixtral8x22B संवाद मॉडल, शून्य एक万物 कंपनी का Yi-1.5-34B, Zhihui AI का GLM-4-9B, शंघाई आर्टिफिशियल इंटेलिजेंस प्रयोगशाला का InternLM2-20B-WQX, और अलीबाबा का Qwen2 श्रृंखला। GPT-4o को बंद-स्रोत मॉडल के रूप में मूल्यांकन में शामिल किया गया, केवल संदर्भ के रूप में।
परिणाम घोषित किए गए, Qwen2-72B ने 303 अंकों के कुल स्कोर के साथ पहले स्थान पर, GPT-4o ने 296 अंकों के साथ दूसरे स्थान पर और InternLM2-20B-WQX ने 295.5 अंकों के साथ तीसरे स्थान पर रहा। इन मॉडलों ने हिंदी और अंग्रेजी विषयों में अच्छा प्रदर्शन किया, हिंदी में औसत स्कोर दर 67% तक पहुंच गई, जबकि अंग्रेजी में यह 81% थी। हालाँकि, गणित विषय में, सभी मॉडलों का औसत स्कोर दर केवल 36% था, जो दिखाता है कि एआई को गणितीय तर्क में सुधार की बहुत आवश्यकता है।
मूल्यांकन शिक्षकों ने एआई मॉडल के उत्तर पत्रों का व्यापक विश्लेषण किया। हिंदी विषय में, मॉडल आमतौर पर आधुनिक लेखन को समझने में सक्षम थे, लेकिन प्राचीन लेखन और निबंध लेखन में कमी दिखाई दी। गणित में, मॉडल की सूत्रों की याददाश्त क्षमता मजबूत थी, लेकिन समस्या समाधान की प्रक्रिया में लचीलापन की कमी थी। अंग्रेजी विषय में समग्र प्रदर्शन अच्छा था, लेकिन कुछ प्रश्नों पर, कुछ मॉडलों का स्कोर दर कम था।
यह "बड़े मॉडल उच्च माध्यमिक परीक्षा" ने न केवल हमें एआई के शैक्षणिक क्षेत्र में संभावनाओं को दिखाया, बल्कि यह भी उजागर किया कि ज्ञान को समझने और लागू करने में उनकी सीमाएँ हैं। तकनीक की निरंतर प्रगति के साथ, हमें विश्वास है कि भविष्य का एआई और अधिक बुद्धिमान होगा और मानव समाज की बेहतर सेवा करेगा।