Anthropic का नवीनतम मॉडल Claude3.5Sonnet ने हाल के तकनीकी परीक्षण में उल्लेखनीय प्रदर्शन दिखाया है, जो पेशेवर डॉक्टरेट स्तर से भी बेहतर है। Graduate-Level Question Answering (GPQA) परीक्षण में, Claude3.5Sonnet ने 67.2% का स्कोर प्राप्त किया, जो न केवल इस प्रकार के आकलन में बड़े भाषा मॉडल द्वारा 65% के स्कोर को पहली बार पार करता है, बल्कि यह उच्च वैज्ञानिक ज्ञान प्रश्नों को समझने और उत्तर देने में एक नए स्तर पर पहुंचने का संकेत देता है।

GQrRBTfa0AAwXFe.jpg

GPQA एक मानक परीक्षण के रूप में कार्य करता है जो भाषा मॉडल की स्नातक स्तर की वैज्ञानिक ज्ञान प्रश्न उत्तर देने की क्षमता को मापता है, जिसमें जटिल और गहन प्रश्नों की एक श्रृंखला शामिल होती है, जो मॉडल की तर्क करने की क्षमता और ज्ञान एकीकरण की क्षमता की उच्च मांग करती है। इस चुनौतीपूर्ण परीक्षण में, सामान्य डॉक्टरेट धारकों का औसत स्कोर लगभग 34% है, जबकि विशेष क्षेत्र के डॉक्टरेट धारकों का औसत स्कोर 65% है। यह उल्लेखनीय है कि GPQA स्कोर 60% तक पहुंचने वाले भाषा मॉडल का बुद्धिमत्ता स्तर लगभग IQ150 के बराबर होता है।

GQrRofibYAAK9Mx.jpg

हालांकि वर्तमान में GPT-4o और GPT-4T के GPQA आकलन में विशिष्ट डेटा उपलब्ध नहीं है, लेकिन मौजूदा जानकारी के अनुसार, Claude3.5Sonnet का प्रदर्शन इन दोनों मॉडलों से बेहतर प्रतीत होता है। अन्य संबंधित आकलनों में, जैसे 0-shot CoT आकलन, Claude3.5Sonnet का स्कोर भी GPT-4o (53.6%) और GPT-4T (48.0%) से अधिक है, जो भाषा समझ और प्रश्न उत्तर देने में इसकी प्रमुखता को और साबित करता है।

Anthropic की यह उपलब्धि न केवल Claude3.5Sonnet की शक्तिशाली क्षमता को दर्शाती है, बल्कि उच्च ज्ञान प्रश्न उत्तर कार्यों को संभालने में बड़े भाषा मॉडल के लिए एक नया मानक स्थापित करती है। तकनीकी प्रगति के साथ, भविष्य में इन मॉडलों के विभिन्न क्षेत्रों में अनुप्रयोग की संभावनाएँ निश्चित रूप से और भी विस्तृत होंगी।