OpenAI के GPT-4 की पारंपरिक गणितीय परीक्षणों में लगातार उत्कृष्टता के साथ, पेइचिंग विश्वविद्यालय और अलीबाबा के शोध टीम ने एक नई परीक्षण मानक - Omni-MATH पेश की है, जिसका उद्देश्य बड़े भाषा मॉडल के ओलंपियाड गणित प्रतियोगिता स्तर की तर्क क्षमता का मूल्यांकन करना है। यह पहल न केवल AI गणितीय क्षमता के मूल्यांकन के लिए एक नया मानक प्रदान करती है, बल्कि उच्च गणित के क्षेत्र में AI की संभावनाओं की खोज के लिए नए रास्ते खोलती है।
Omni-MATH का अद्वितीय डिज़ाइन
Omni-MATH परीक्षण पुस्तकालय में 4428 प्रतियोगिता स्तर के गणित प्रश्न शामिल हैं, जो 33 से अधिक गणित उप-क्षेत्रों को कवर करते हैं, और कठिनाई को 10 विभिन्न स्तरों में विभाजित किया गया है। इसके विशेषताएँ शामिल हैं:
उच्च विश्वसनीयता: सभी प्रश्न विभिन्न गणित प्रतियोगिताओं और फोरम से लिए गए हैं, और उत्तरों को मैन्युअल रूप से सत्यापित किया गया है।
व्यापक कवरेज: ओलंपियाड प्रारंभिक स्तर (T4) से लेकर शीर्ष ओलंपियाड गणित प्रतियोगिता (T0) तक, जैसे IMO, IMC और पुटनम आदि।
विविधता पर विचार: GPT-4 और अन्य परीक्षण मॉडलों पर आधारित मूल्यांकन विधियों के माध्यम से उत्तर विविधता के मुद्दों को अनुकूलित किया गया है।
हाल के रैंकिंग में, GPT-4 के पूर्ण संस्करण के अलावा, उत्कृष्ट प्रदर्शन करने वाले शामिल हैं:
GPT-4-mini: औसत स्कोर GPT-4-preview से लगभग 8% अधिक है
Qwen2-MATH-72b: GPT-4-turbo के प्रदर्शन को पार कर गया है
ये परिणाम दिखाते हैं कि छोटे मॉडल भी विशिष्ट क्षमताओं में उत्कृष्ट प्रदर्शन कर सकते हैं।
परीक्षण प्रणाली की गहराई और चौड़ाई
Omni-MATH का डिज़ाइन अंतरराष्ट्रीय गणित प्रतियोगिताओं की चयन प्रक्रिया और कठिनाई स्तरों को पूरी तरह से ध्यान में रखता है:
ब्रिटेन और अमेरिका जैसे देशों के ओलंपियाड चयन प्रणाली को संदर्भित करता है
संख्यात्मक सिद्धांत, बीजगणित से लेकर ज्यामिति तक कई गणितीय क्षेत्रों को कवर करता है
डेटा स्रोतों में विभिन्न प्रतियोगिता प्रश्न, विश्लेषण और प्रसिद्ध गणित वेबसाइटों के फोरम सामग्री शामिल हैं
नवोन्मेषी परीक्षण विधि
शोध टीम ने Omni-Judge ओपन-सोर्स उत्तर सत्यापनकर्ता विकसित किया है, जो समायोजित Llama3-Instruct मॉडल का उपयोग करके, मॉडल आउटपुट और मानक उत्तर के बीच संगति को जल्दी से पहचान सकता है। यह विधि 95% संगति दर को सुनिश्चित करते हुए, जटिल गणितीय प्रश्नों के परीक्षण के लिए एक सुविधाजनक समाधान प्रदान करती है।
Omni-MATH का लॉन्च न केवल AI गणितीय क्षमता के लिए एक नई चुनौती है, बल्कि भविष्य में AI के उच्च गणित के क्षेत्र में अनुप्रयोग और विकास के लिए एक महत्वपूर्ण मूल्यांकन उपकरण भी प्रदान करता है। जैसे-जैसे AI तकनीक में निरंतर प्रगति होती है, हम निकट भविष्य में ओलंपियाड गणित प्रतियोगिताओं में AI के आश्चर्यजनक प्रदर्शन के गवाह बन सकते हैं।
प्रोजेक्ट का पता: https://github.com/KbsdJames/Omni-MATH/