मुख्य बिंदु: ऑगस्ट 2025 में, AI के क्षेत्र में एक नई मील का पत्थर रखा गया। OpenAI द्वारा जारी GPT-5, Anthropic के Claude4Opus और Google के Gemini2.5Pro वर्तमान में बड़े भाषा मॉडल के शीर्ष स्तर का प्रतिनिधित्व करते हैं। इस लेख में हम अपने नए मानक परीक्षण डेटा के आधार पर इन तीन शीर्ष AI मॉडल के गहरे मूल्यांकन और तुलना करेंगे।

मुख्य खोज: GPT-5 गणितीय तर्क में उत्कृष्ट प्रदर्शन करता है (AIME2025 में 94.6%), Claude4Opus प्रोग्रामिंग के क्षेत्र में नए राजा बन गया (SWE-bench में 72.5%), जबकि Gemini2.5Pro लंबे संदर्भ और बहुमाध्यम प्रसंस्करण में अपने शीर्ष स्तर के बाजार में अपना असर दिखाता है (1000000 token संदर्भ विंडो)।

एक: 2025 में AI मॉडल के ढांचे का सामान्य अवलोकन

2025 के अगस्त 7 को, OpenAI ने GPT-5 जारी किया, जो बड़े भाषा मॉडल के एक नए विकास चरण को चिह्नित करता है। इस समय, Anthropic के Claude4Opus (मई में जारी) और Google के Gemini2.5Pro तीन प्रतिद्वंद्वी प्रतिस्पर्धा के ढांचे के रूप में बन गए। इस GPT-5 मूल्यांकन में हम इन तीन मॉडल के विभिन्न आयामों में प्रदर्शन अंतरों के विश्लेषण में गहराई से जाएंगे।

image.png

समग्र संरचना के आधार पर, ये तीन मॉडल सभी मिश्रित तर्क के आधार पर काम करते हैं, जो तेज जवाब और गहरी सोच के बीच बुद्धिमान रूप से स्विच कर सकते हैं। GPT-5 एक एकीकृत सिस्टम संरचना का उपयोग करता है, जिसमें तेज मॉडल, गहरी तर्क मॉडल और वास्तविक समय राउटर शामिल हैं; Claude4Opus तत्काल जवाब और विस्तारित सोच के दो मोड प्रदान करता है; जबकि Gemini2.5Pro अपने बड़े संदर्भ विंडो के कारण लंबे दस्तावेज के लिए एक पसंदीदा उपकरण बन गया है।

image.png

द्वितीय: मुख्य प्रदर्शन मानक परीक्षण तुलना

तीन मॉडल की वास्तविक क्षमता के मूल्यांकन के लिए, हमने नवीनतम आधिकारिक मानक परीक्षण डेटा एकत्र किया। नीचे की तालिका मुख्य सूचकांक के तुलनात्मक परिणाम प्रदर्शित करती है:

मानक परीक्षणGPT-5Claude4OpusGemini2.5Proपरीक्षण विवरण
SWE-bench Verified74.9%72.5%63.8%सॉफ्टवेयर इंजीनियरिंग वास्तविक कार्य
AIME202594.6%33.9%86.7%गणित प्रतियोगिता प्रश्न
AIME202488.0%33.9%92.0%गणित प्रतियोगिता प्रश्न
MMMU84.2%73.7%81.7%बहुमाध्यम अवधारणा
GPQA Diamond88.4%74.9%84.0%विज्ञान प्रश्न-उत्तर तर्क
MRCR (128K)48.8%-91.5%लंबे संदर्भ पठन समझ
Terminal-bench-43.2%-टर्मिनल ऑपरेशन कार्य
LiveCodeBench v5--70.4%वास्तविक समय प्रोग्रामिंग चुनौती

2.1 प्रोग्रामिंग क्षमता तुलना विश्लेषण

प्रोग्रामिंग क्षमता के मामले में, GPT-5 एक व्यापक फायदा दिखाता है। SWE-bench Verified मानक परीक्षण में, GPT-5 74.9% के स्कोर के साथ अग्रणी है, जो वास्तविक सॉफ्टवेयर इंजीनियरिंग कार्यों में इसके प्रदर्शन के बारे में बताता है। Claude4Opus इसके बाद आता है, 72.5% तक पहुंच गया, जिसे "दुनिया का सबसे अच्छा प्रोग्रामिंग मॉडल" कहा जाता है। इसके विपरीत, Gemini2.5Pro प्रोग्रामिंग में अपेक्षाकृत संकुचित प्रदर्शन करता है, 63.8% है।

ध्यान देने योग्य बात यह है कि Claude4Opus Terminal-bench परीक्षण में उत्कृष्ट प्रदर्शन करता है, 43.2% तक पहुंच गया, जो इसके टर्मिनल ऑपरेशन और सिस्टम प्रबंधन कार्यों में विशेषज्ञता को दर्शाता है। जटिल कोड बेस ऑपरेशन और डीबगिंग के लिए विकसकरों के लिए, GPT-5 और Claude4Opus दोनों अच्छा विकल्प हैं।

2.2 गणितीय तर्क क्षमता मूल्यांकन

गणितीय तर्क क्षमता AI मॉडल के तार्किक सोच के मूल्यांकन के लिए महत्वपूर्ण सूचक है। AIME2025 परीक्षण में, GPT-5 ने अद्भुत 94.6% स्कोर हासिल किया, जो मानव गणित प्रतियोगिता के शीर्ष स्तर के निकट है। Gemini2.5Pro AIME2024 में सबसे अच्छा प्रदर्शन करता है (92.0%), लेकिन 2025 के परीक्षण में थोड़ा कम हो गया (86.7%)।

Claude4Opus गणितीय तर्क में अपेक्षाकृत कमजोर है, AIME परीक्षण में केवल 33.9% का स्कोर है। यह दर्शाता है कि यद्यपि Claude4Opus प्रोग्रामिंग के क्षेत्र में उत्कृष्ट प्रदर्शन करता है, लेकिन शुद्ध गणितीय तर्क कार्यों में इसके लिए सुधार की आवश्यकता है।

2.3 बहुमाध्यम प्रसंस्करण क्षमता

बहुमाध्यम अवधारणा के मामले में, GPT-5 MMMU मानक परीक्षण में 84.2% के स्कोर तक पहुंच गया, जो विभिन्न प्रकार के इनपुट (पाठ, चित्र, ध्वनि) के साथ व्यापक क्षमता के साथ अपने अनुभव को दर्शाता है। Gemini2.5Pro 81.7% के स्कोर के साथ दूसरे स्थान पर है, लेकिन इसके मूल समर्थन वीडियो इनपुट के कारण, वास्तविक बहुमाध्यम अनुप्रयोग क्षमता अधिक अच्छी हो सकती है।

Claude4Opus बहुमाध्यम में अपेक्षाकृत सीमित प्रदर्शन करता है (73.7%), जो इसके डिज़ाइन के ध्यान केंद्र के कारण है, जो अधिकतर पाठ प्रसंस्करण और प्रोग्रामिंग कार्यों पर है।

तृतीय: कार्यक्षमता विशेषताओं की गहरी तुलना

image.png

3.1 संदर्भ प्रसंस्करण क्षमता की तुलना