पीकिंग विश्वविद्यालय और हांगकांग विज्ञान और प्रौद्योगिकी विश्वविद्यालय की टीम ने एक बड़ी खबर बनाई है, उन्होंने एक प्रशिक्षण विधि प्रस्तुत की है, जिससे 8B आकार के चिकित्सा विशेषज्ञ मॉडल ने GPT-4 स्तर के प्रदर्शन को प्राप्त किया है। यह कोई छोटी-मोटी बात नहीं है, उन्होंने एक नया अवधारणा भी पेश किया - "स्थिरता अंतर", जो बड़े भाषा मॉडल के निरंतर पूर्व-प्रशिक्षण प्रक्रिया में कुछ घटनाओं को समझाने के लिए है।

AI चिकित्सा डॉक्टर आर्टिफिशियल इंटेलिजेंस

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney

पहले, उन्होंने पाया कि निरंतर पूर्व-प्रशिक्षण प्रक्रिया में, मॉडल के लक्ष्य क्षेत्र में प्रदर्शन पहले गिरता है फिर बढ़ता है, जैसे कि यह एक रोलरकोस्टर की तरह रोमांचक है। इस समस्या को हल करने के लिए, उन्होंने तीन रणनीतियाँ प्रस्तुत कीं। पहली रणनीति उचित आकार के डेटा उपसमुच्चय पर कई दौर के पूर्व-प्रशिक्षण करना है, जिससे एकल दौर के बड़े डेटा सेट पूर्व-प्रशिक्षण की तुलना में प्रदर्शन को तेजी से बहाल किया जा सके। दूसरी रणनीति उच्चतम गुणवत्ता के उप-कोरपस का चयन करना है और कई दौर के पूर्व-प्रशिक्षण करना है। अंत में, डेटा को मिश्रित करके पूर्व-प्रशिक्षण डेटा वितरण के करीब लाना है, जिससे मॉडल अधिक स्थिर हो सके।

ये रणनीतियाँ चिकित्सा क्षेत्र में निरंतर पूर्व-प्रशिक्षण और निर्देशात्मक समायोजन में महत्वपूर्ण प्रभाव डालती हैं, प्रदर्शन में सुधार के साथ-साथ गणना की मात्रा को भी कम करती हैं। इसके अलावा, उनका ओपन-सोर्स Llama-3-Physician-8B मॉडल अब HuggingFace पर उपलब्ध है।

इस शोध का महत्व इससे अधिक है। उन्होंने यह भी पाया कि इन रणनीतियों के माध्यम से, OpenLLaMa मॉडल को उच्च गुणवत्ता वाले 5 अरब डेटा पर केवल 4 राउंड में प्रशिक्षित करने की आवश्यकता है, जिससे यह चिकित्सा कार्यों पर सभी बेंचमार्क को महत्वपूर्ण रूप से पार कर जाता है। इससे न केवल प्रदर्शन में वृद्धि हुई, बल्कि गणना संसाधनों की खपत भी काफी कम हो गई।

और भी अद्भुत बात यह है कि उनका Llama-3-Physician-8B-instruct मॉडल चिकित्सा प्रश्न-उत्तर कार्यों में प्रदर्शन में न केवल अन्य समान आकार के ओपन-सोर्स मॉडलों से बेहतर है, बल्कि यह बंद-सोर्स GPT-3.5 मॉडल को भी पार करता है, और GPT-4 के स्तर के करीब है। यह चिकित्सा क्षेत्र में एक क्रांति है।

यह शोध न केवल हमें एक नई प्रशिक्षण विधि प्रदान करता है, बल्कि हमें चिकित्सा क्षेत्र में बड़े भाषा मॉडल की विशाल क्षमता को भी दिखाता है। निरंतर पूर्व-प्रशिक्षण और निर्देशात्मक सूक्ष्म समायोजन के माध्यम से, हम मॉडल को विशिष्ट क्षेत्रों में उच्च प्रदर्शन पर पहुंचा सकते हैं, जबकि गणना लागत को कम कर सकते हैं। यह चिकित्सा उद्योग के लिए निश्चित रूप से एक बड़ा आशीर्वाद है।

यह शोध हमें यह भी याद दिलाता है कि बड़े भाषा मॉडल का प्रशिक्षण एक बार में पूरा नहीं होता, बल्कि इसे लगातार अनुकूलित और समायोजित करने की आवश्यकता होती है। "स्थिरता अंतर" की अवधारणा को पेश करके, हम मॉडल प्रशिक्षण में समस्याओं को बेहतर ढंग से समझ सकते हैं और हल कर सकते हैं, जिससे मॉडल विशिष्ट क्षेत्रों में अधिक प्रभाव डाल सके। यह न केवल तकनीकी प्रगति है, बल्कि चिकित्सा उद्योग के लिए एक गहन अंतर्दृष्टि भी है।

पेपर लिंक: https://arxiv.org/abs/2406.14833

ओपन-सोर्स पता: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct