चिकित्सा क्षेत्र में कृत्रिम बुद्धिमत्ता के उपयोग में एक और महत्वपूर्ण प्रगति हुई है! हार्वर्ड विश्वविद्यालय, स्टैनफोर्ड विश्वविद्यालय और अन्य शीर्ष संस्थानों द्वारा संयुक्त रूप से किए गए एक अध्ययन में पाया गया है कि OpenAI का o1-preview मॉडल कई चिकित्सा तर्क कार्यों में अद्भुत क्षमता दिखाता है, यहां तक कि यह मानव डॉक्टरों को भी पीछे छोड़ देता है। यह अध्ययन न केवल इस मॉडल के चिकित्सा बहुविकल्पीय प्रश्न मानक परीक्षण में प्रदर्शन का मूल्यांकन करता है, बल्कि वास्तविक नैदानिक परिदृश्यों में इसके निदान और प्रबंधन क्षमता पर भी ध्यान केंद्रित करता है, जिसके परिणाम आश्चर्यजनक हैं।

शोधकर्ताओं ने o1-preview मॉडल का व्यापक मूल्यांकन करने के लिए पांच प्रयोग किए, जिनमें विभेदक निदान उत्पादन, निदान तर्क प्रक्रिया का प्रदर्शन, ट्रायजिंग विभेदक निदान, संभाव्यता तर्क और प्रबंधन तर्क शामिल हैं। इन प्रयोगों का मूल्यांकन चिकित्सा विशेषज्ञों द्वारा मान्य मनोमापी विधियों का उपयोग करके किया गया, जिसका उद्देश्य o1-preview के प्रदर्शन की तुलना पूर्व के मानव नियंत्रण समूहों और प्रारंभिक बड़े भाषा मॉडल मानकों से करना था। परिणाम बताते हैं कि o1-preview ने विभेदक निदान उत्पादन और निदान तथा प्रबंधन तर्क की गुणवत्ता में महत्वपूर्ण प्रगति की है।

जब o1-preview द्वारा उत्पन्न विभेदक निदान की क्षमता का मूल्यांकन किया गया, तो शोधकर्ताओं ने न्यू इंग्लैंड जर्नल ऑफ़ मेडिसिन (NEJM) द्वारा प्रकाशित नैदानिक रोगविज्ञान चर्चा (CPC) मामलों का उपयोग किया। परिणाम बताते हैं कि इस मॉडल ने 78.3% मामलों में दिए गए विभेदक निदान में सही निदान शामिल किया, और 52% मामलों में, पहला निदान सही था। और भी आश्चर्यजनक यह है कि o1-preview ने 88.6% मामलों में सही या बहुत करीब का निदान दिया, जबकि पहले के GPT-4 मॉडल ने समान मामलों में यह अनुपात 72.9% था। इसके अलावा, o1-preview ने अगले निदान परीक्षण का चयन करने में भी उत्कृष्टता दिखाई, 87.5% मामलों में सही परीक्षण का चयन किया, जबकि 11% मामलों में चयनित परीक्षण योजना को सहायक माना गया।

o1-preview की नैदानिक तर्क क्षमता का और अधिक मूल्यांकन करने के लिए, शोधकर्ताओं ने NEJM हीलर पाठ्यक्रम में 20 नैदानिक मामलों का उपयोग किया। परिणाम बताते हैं कि o1-preview ने इन मामलों में GPT-4, मुख्य चिकित्सक और निवास चिकित्सकों की तुलना में स्पष्ट रूप से बेहतर प्रदर्शन किया, 78/80 मामलों में उत्कृष्ट R-IDEA स्कोर प्राप्त किया। R-IDEA स्कोर नैदानिक तर्क रिकॉर्ड गुणवत्ता का मूल्यांकन करने के लिए 10 अंकों का मापदंड है। इसके अलावा, शोधकर्ताओं ने "ग्रे मैटर्स" प्रबंधन मामलों और "लैंडमार्क" निदान मामलों के माध्यम से o1-preview की प्रबंधन और निदान तर्क क्षमता का मूल्यांकन किया। "ग्रे मैटर्स" मामलों में, o1-preview का स्कोर GPT-4, GPT-4 का उपयोग करने वाले डॉक्टरों और पारंपरिक संसाधनों का उपयोग करने वाले डॉक्टरों की तुलना में काफी अधिक था। "लैंडमार्क" मामलों में, o1-preview का प्रदर्शन GPT-4 के समान था, लेकिन GPT-4 या पारंपरिक संसाधनों का उपयोग करने वाले डॉक्टरों की तुलना में बेहतर था।
हालांकि, अध्ययन में यह भी पाया गया कि o1-preview की संभाव्यता तर्क में प्रदर्शन पिछले मॉडलों के समान है और इसमें कोई महत्वपूर्ण सुधार नहीं हुआ है। कुछ मामलों में, यह मॉडल बीमारी की संभाव्यता का अनुमान लगाने में मानव से पीछे रह गया। शोधकर्ताओं ने यह भी बताया कि o1-preview की एक सीमा यह है कि यह लंबी व्याख्या करने की प्रवृत्ति रखता है, जो कुछ प्रयोगों में इसके स्कोर को बढ़ा सकता है। इसके अलावा, यह अध्ययन मुख्य रूप से मॉडल के प्रदर्शन पर केंद्रित था और मानव-컴퓨터 इंटरैक्शन को शामिल नहीं किया गया, इसलिए भविष्य में यह अध्ययन करने की आवश्यकता है कि o1-preview कैसे मानव-컴퓨터 इंटरैक्शन को बढ़ा सकता है, ताकि अधिक प्रभावी नैदानिक निर्णय समर्थन उपकरण विकसित किए जा सकें।
फिर भी, यह अध्ययन बताता है कि o1-preview जटिल आलोचनात्मक सोच वाले कार्यों (जैसे निदान और प्रबंधन) में उत्कृष्ट प्रदर्शन करता है। शोधकर्ताओं ने जोर दिया कि चिकित्सा क्षेत्र में निदान तर्क मानक तेजी से संतृप्त हो रहे हैं, इसलिए अधिक चुनौतीपूर्ण और वास्तविकता पर आधारित मूल्यांकन विधियों का विकास आवश्यक है। उन्होंने वास्तविक नैदानिक वातावरण में इन तकनीकों का परीक्षण करने और चिकित्सकों और कृत्रिम बुद्धिमत्ता के सहयोगात्मक नवाचार के लिए तैयारी करने की अपील की। इसके अलावा, कृत्रिम बुद्धिमत्ता नैदानिक निर्णय समर्थन प्रणाली के व्यापक कार्यान्वयन की निगरानी के लिए एक मजबूत निगरानी ढांचे की आवश्यकता है।
पत्र का पता: https://www.arxiv.org/pdf/2412.10849