तकनीकी मूल्यांकन रिपोर्ट दर्शाती है: Claude 3.5 Sonnet मॉडल ने पेशेवर डॉक्टरेट स्तर हासिल किया

AIbase

द्वारा प्रकाशितAI समाचार · 4 मिनट पढ़ें · Jun 24, 2024

331

Anthropic का नवीनतम मॉडल Claude3.5Sonnet ने हाल के तकनीकी परीक्षण में उल्लेखनीय प्रदर्शन दिखाया है, जो पेशेवर डॉक्टरेट स्तर से भी बेहतर है। Graduate-Level Question Answering (GPQA) परीक्षण में, Claude3.5Sonnet ने 67.2% का स्कोर प्राप्त किया, जो न केवल इस प्रकार के आकलन में बड़े भाषा मॉडल द्वारा 65% के स्कोर को पहली बार पार करता है, बल्कि यह उच्च वैज्ञानिक ज्ञान प्रश्नों को समझने और उत्तर देने में एक नए स्तर पर पहुंचने का संकेत देता है।

GPQA एक मानक परीक्षण के रूप में कार्य करता है जो भाषा मॉडल की स्नातक स्तर की वैज्ञानिक ज्ञान प्रश्न उत्तर देने की क्षमता को मापता है, जिसमें जटिल और गहन प्रश्नों की एक श्रृंखला शामिल होती है, जो मॉडल की तर्क करने की क्षमता और ज्ञान एकीकरण की क्षमता की उच्च मांग करती है। इस चुनौतीपूर्ण परीक्षण में, सामान्य डॉक्टरेट धारकों का औसत स्कोर लगभग 34% है, जबकि विशेष क्षेत्र के डॉक्टरेट धारकों का औसत स्कोर 65% है। यह उल्लेखनीय है कि GPQA स्कोर 60% तक पहुंचने वाले भाषा मॉडल का बुद्धिमत्ता स्तर लगभग IQ150 के बराबर होता है।

हालांकि वर्तमान में GPT-4o और GPT-4T के GPQA आकलन में विशिष्ट डेटा उपलब्ध नहीं है, लेकिन मौजूदा जानकारी के अनुसार, Claude3.5Sonnet का प्रदर्शन इन दोनों मॉडलों से बेहतर प्रतीत होता है। अन्य संबंधित आकलनों में, जैसे 0-shot CoT आकलन, Claude3.5Sonnet का स्कोर भी GPT-4o (53.6%) और GPT-4T (48.0%) से अधिक है, जो भाषा समझ और प्रश्न उत्तर देने में इसकी प्रमुखता को और साबित करता है।

Anthropic की यह उपलब्धि न केवल Claude3.5Sonnet की शक्तिशाली क्षमता को दर्शाती है, बल्कि उच्च ज्ञान प्रश्न उत्तर कार्यों को संभालने में बड़े भाषा मॉडल के लिए एक नया मानक स्थापित करती है। तकनीकी प्रगति के साथ, भविष्य में इन मॉडलों के विभिन्न क्षेत्रों में अनुप्रयोग की संभावनाएँ निश्चित रूप से और भी विस्तृत होंगी।

小红书 ने पहला 'AI सुविधा स्टोर' खोला, उत्कृष्ट AI नोट्स सामग्री को 3W से 50W ट्रैफ़िक सहायता प्रदान करेगा

हाल ही में, 小红书 ने '科技薯' अकाउंट लॉन्च किया, जो वैश्विक स्तर पर पहले AI सुविधा स्टोर उद्यमी प्रोजेक्ट को शुरू करता है। यह स्टोर पूरे नेटवर्क से उच्च गुणवत्ता वाले निर्माता और टेक कंपनियों के साथ साझेदारी करते हुए AI के नवीनतम अनुप्रयोगों, उपयोगी जानकारी, भावनात्मक अनुभव आदि सामग्री प्रदान करता है। इस सुविधा स्टोर में @赵纯想 जैसे रचनात्मक AI उत्पादों की बिक्री होती है, जैसे खाने में सहायता, AI-शैली नूडल बनाने की विधि, AI से गर्दन दर्द का उपचार, 林亦LYi के पारंपरिक AI उपचार, और AI मां को अधूरे कार्यों को पूरा करने में मदद करता है।科技薯 ने एक कार्यक्रम भी शुरू किया है, जिसमें नोट्स लेखक #AI便利店 का उपयोग करके AI से संबंधित नोट्स साझा कर सकते हैं, जिसके लिए उन्हें 30,000 से ...

GPT-4o और Sonnet-3.5 दृष्टि परीक्षण में असफल, VLMs वास्तव में "अंधे" हैं?

दृश्य भाषा मॉडल (VLMs) जैसे GPT-4o, Gemini-1.5Pro इत्यादि ने छवि और पाठ प्रसंस्करण में उत्कृष्ट प्रदर्शन दिखाया है, यहां तक कि दृश्य समझ परीक्षणों में भी शानदार परिणाम प्राप्त किया है। हालाँकि, हाल की शोध ने यह स्पष्ट किया है कि ये AI मौलिक रूप से मानव दृश्य समझ की क्षमता का पूर्ण अनुकरण करने में सक्षम नहीं हैं। एक परीक्षण जिसका नाम "BlindTest" है, के परिणाम ने दिखाया है कि ये उच्च स्तरीय मॉडल मूल ग्राफिक संबंधों की पहचान (जैसे चित्र में रेखाओं की इंटरसेक्शन और ग्राफिक ओवरलैप) में औसतन केवल 56.20% सटीकता प्राप्त कर रहे हैं।

OpenAI डेटा लीक घटना चेतावनी देती है: AI कंपनियां हैकर्स के लिए स्वर्ण प्राश कटिया बन गई हैं

OpenAI प्रणाली ने डेटा लीक घटना का सामना किया, लेकिन चिंता करने की आवश्यकता नहीं है कि क्या आपके ChatGPT बातचीत के सामग्री को हासिल किया गया है। हालांकि यह हैक हमला खुद में सतही प्रतीत होता है, लेकिन यह हमें याद दिलाता है कि AI कंपनियां तेजी से हैकर्स के सबसे इच्छित लक्ष्यों में से एक बन गई हैं। न्यूयॉर्क टाइम्स के अनुसार, पूर्व OpenAI कर्मचारी लियोपोल्ड ऐशनेब्रेनर ने एक पॉडकास्ट में इस हैकिंग घटना का संकेत दिया। उन्होंने इसे "एक महत्वपूर्ण सुरक्षा घटना" कहा, लेकिन कंपनी के अनाम सूत्रों के अनुसार।

पशु AI फोटोशूट 'बिल्ली संरक्षक' ने शाओहांग पर धूम मचा दी, गंदगी उठाने वालों की खुशी का कोई ठिकाना नहीं।

शाओहांग पर, पालतू जानवरों के लिए एक रचनात्मक क्रांति चुपचाप चल रही है। 'बिल्ली संरक्षक', एक AI फोटोशूट प्रोजेक्ट, अपनी अनोखी पौराणिक शैली के साथ, तेजी से नेटिज़न्स के दिलों को जीत रहा है। यह प्रोजेक्ट पालतू प्रेमियों को अपने पालतू जानवरों को संरक्षक के रूप में देखने का एक शानदार अवसर देता है, जिससे पालतू फोटोशूट के नए ट्रेंड की शुरुआत होती है।

AI समाचार

तकनीकी मूल्यांकन रिपोर्ट दर्शाती है: Claude 3.5 Sonnet मॉडल ने पेशेवर डॉक्टरेट स्तर हासिल किया

AIbase

संबंधित AI समाचार अनुशंसाएँ

小红书 ने पहला 'AI सुविधा स्टोर' खोला, उत्कृष्ट AI नोट्स सामग्री को 3W से 50W ट्रैफ़िक सहायता प्रदान करेगा

GPT-4o और Sonnet-3.5 दृष्टि परीक्षण में असफल, VLMs वास्तव में "अंधे" हैं?

OpenAI डेटा लीक घटना चेतावनी देती है: AI कंपनियां हैकर्स के लिए स्वर्ण प्राश कटिया बन गई हैं

पशु AI फोटोशूट 'बिल्ली संरक्षक' ने शाओहांग पर धूम मचा दी, गंदगी उठाने वालों की खुशी का कोई ठिकाना नहीं।