चिकित्सा क्षेत्र में कृत्रिम बुद्धिमत्ता के उपयोग में एक और महत्वपूर्ण प्रगति हुई है! हार्वर्ड विश्वविद्यालय, स्टैनफोर्ड विश्वविद्यालय और अन्य शीर्ष संस्थानों द्वारा संयुक्त रूप से किए गए एक अध्ययन में पाया गया है कि OpenAI का o1-preview मॉडल कई चिकित्सा तर्क कार्यों में अद्भुत क्षमता दिखाता है, यहां तक कि यह मानव डॉक्टरों को भी पीछे छोड़ देता है। यह अध्ययन न केवल इस मॉडल के चिकित्सा बहुविकल्पीय प्रश्न मानक परीक्षण में प्रदर्शन का मूल्यांकन करता है, बल्कि वास्तविक नैदानिक परिदृश्यों में इसके निदान और प्रबंधन क्षमता पर भी ध्यान केंद्रित करता है, जिसके परिणाम आश्चर्यजनक हैं।

image.png

शोधकर्ताओं ने o1-preview मॉडल का व्यापक मूल्यांकन करने के लिए पांच प्रयोग किए, जिनमें विभेदक निदान उत्पादन, निदान तर्क प्रक्रिया का प्रदर्शन, ट्रायजिंग विभेदक निदान, संभाव्यता तर्क और प्रबंधन तर्क शामिल हैं। इन प्रयोगों का मूल्यांकन चिकित्सा विशेषज्ञों द्वारा मान्य मनोमापी विधियों का उपयोग करके किया गया, जिसका उद्देश्य o1-preview के प्रदर्शन की तुलना पूर्व के मानव नियंत्रण समूहों और प्रारंभिक बड़े भाषा मॉडल मानकों से करना था। परिणाम बताते हैं कि o1-preview ने विभेदक निदान उत्पादन और निदान तथा प्रबंधन तर्क की गुणवत्ता में महत्वपूर्ण प्रगति की है।

image.png

जब o1-preview द्वारा उत्पन्न विभेदक निदान की क्षमता का मूल्यांकन किया गया, तो शोधकर्ताओं ने न्यू इंग्लैंड जर्नल ऑफ़ मेडिसिन (NEJM) द्वारा प्रकाशित नैदानिक रोगविज्ञान चर्चा (CPC) मामलों का उपयोग किया। परिणाम बताते हैं कि इस मॉडल ने 78.3% मामलों में दिए गए विभेदक निदान में सही निदान शामिल किया, और 52% मामलों में, पहला निदान सही था। और भी आश्चर्यजनक यह है कि o1-preview ने 88.6% मामलों में सही या बहुत करीब का निदान दिया, जबकि पहले के GPT-4 मॉडल ने समान मामलों में यह अनुपात 72.9% था। इसके अलावा, o1-preview ने अगले निदान परीक्षण का चयन करने में भी उत्कृष्टता दिखाई, 87.5% मामलों में सही परीक्षण का चयन किया, जबकि 11% मामलों में चयनित परीक्षण योजना को सहायक माना गया।

image.png

o1-preview की नैदानिक तर्क क्षमता का और अधिक मूल्यांकन करने के लिए, शोधकर्ताओं ने NEJM हीलर पाठ्यक्रम में 20 नैदानिक मामलों का उपयोग किया। परिणाम बताते हैं कि o1-preview ने इन मामलों में GPT-4, मुख्य चिकित्सक और निवास चिकित्सकों की तुलना में स्पष्ट रूप से बेहतर प्रदर्शन किया, 78/80 मामलों में उत्कृष्ट R-IDEA स्कोर प्राप्त किया। R-IDEA स्कोर नैदानिक तर्क रिकॉर्ड गुणवत्ता का मूल्यांकन करने के लिए 10 अंकों का मापदंड है। इसके अलावा, शोधकर्ताओं ने "ग्रे मैटर्स" प्रबंधन मामलों और "लैंडमार्क" निदान मामलों के माध्यम से o1-preview की प्रबंधन और निदान तर्क क्षमता का मूल्यांकन किया। "ग्रे मैटर्स" मामलों में, o1-preview का स्कोर GPT-4, GPT-4 का उपयोग करने वाले डॉक्टरों और पारंपरिक संसाधनों का उपयोग करने वाले डॉक्टरों की तुलना में काफी अधिक था। "लैंडमार्क" मामलों में, o1-preview का प्रदर्शन GPT-4 के समान था, लेकिन GPT-4 या पारंपरिक संसाधनों का उपयोग करने वाले डॉक्टरों की तुलना में बेहतर था।

हालांकि, अध्ययन में यह भी पाया गया कि o1-preview की संभाव्यता तर्क में प्रदर्शन पिछले मॉडलों के समान है और इसमें कोई महत्वपूर्ण सुधार नहीं हुआ है। कुछ मामलों में, यह मॉडल बीमारी की संभाव्यता का अनुमान लगाने में मानव से पीछे रह गया। शोधकर्ताओं ने यह भी बताया कि o1-preview की एक सीमा यह है कि यह लंबी व्याख्या करने की प्रवृत्ति रखता है, जो कुछ प्रयोगों में इसके स्कोर को बढ़ा सकता है। इसके अलावा, यह अध्ययन मुख्य रूप से मॉडल के प्रदर्शन पर केंद्रित था और मानव-컴퓨터 इंटरैक्शन को शामिल नहीं किया गया, इसलिए भविष्य में यह अध्ययन करने की आवश्यकता है कि o1-preview कैसे मानव-컴퓨터 इंटरैक्शन को बढ़ा सकता है, ताकि अधिक प्रभावी नैदानिक निर्णय समर्थन उपकरण विकसित किए जा सकें।

फिर भी, यह अध्ययन बताता है कि o1-preview जटिल आलोचनात्मक सोच वाले कार्यों (जैसे निदान और प्रबंधन) में उत्कृष्ट प्रदर्शन करता है। शोधकर्ताओं ने जोर दिया कि चिकित्सा क्षेत्र में निदान तर्क मानक तेजी से संतृप्त हो रहे हैं, इसलिए अधिक चुनौतीपूर्ण और वास्तविकता पर आधारित मूल्यांकन विधियों का विकास आवश्यक है। उन्होंने वास्तविक नैदानिक वातावरण में इन तकनीकों का परीक्षण करने और चिकित्सकों और कृत्रिम बुद्धिमत्ता के सहयोगात्मक नवाचार के लिए तैयारी करने की अपील की। इसके अलावा, कृत्रिम बुद्धिमत्ता नैदानिक निर्णय समर्थन प्रणाली के व्यापक कार्यान्वयन की निगरानी के लिए एक मजबूत निगरानी ढांचे की आवश्यकता है।

पत्र का पता: https://www.arxiv.org/pdf/2412.10849