हाल ही में, माइक्रोसॉफ्ट रिसर्च इंस्टीट्यूट ने वाशिंगटन यूनिवर्सिटी, स्टैनफोर्ड यूनिवर्सिटी, यूनिवर्सिटी ऑफ साउथर्न कैलिफोर्निया, यूनिवर्सिटी ऑफ कैलिफोर्निया, डेविस और यूनिवर्सिटी ऑफ कैलिफोर्निया, सैन फ्रांसिस्को के शोधकर्ताओं के साथ मिलकर LLaVA-Rad लॉन्च किया है, जो एक नया छोटा बहु-आधारित मॉडल (SMM) है, जिसका उद्देश्य नैदानिक रेडियोलॉजी रिपोर्ट की उत्पादन क्षमता को बढ़ाना है। इस मॉडल का लॉन्च न केवल चिकित्सा चित्रण प्रौद्योगिकी में एक महत्वपूर्ण प्रगति का प्रतीक है, बल्कि रेडियोलॉजी के नैदानिक अनुप्रयोगों के लिए अधिक संभावनाएँ भी लाता है।

db73a539-416b-4dd8-acfe-b9a708b61f59.png

जीवविज्ञान के क्षेत्र में, बड़े पैमाने पर आधारभूत मॉडलों पर आधारित अनुसंधान ने अच्छे अनुप्रयोग संभावनाओं का प्रदर्शन किया है, विशेष रूप से बहु-आधारित जनरेशन AI के विकास के साथ, जो पाठ और चित्र दोनों को एक साथ संसाधित कर सकता है, जिससे दृश्य प्रश्नोत्तर और रेडियोलॉजी रिपोर्ट निर्माण जैसे कार्यों का समर्थन किया जा सकता है। हालाँकि, वर्तमान में कई चुनौतियाँ बनी हुई हैं, जैसे बड़े मॉडल की संसाधन आवश्यकताएँ बहुत अधिक हैं, जिससे नैदानिक वातावरण में व्यापक तैनाती में कठिनाई होती है। छोटे बहु-आधारित मॉडल ने दक्षता में सुधार किया है, लेकिन बड़े मॉडल की तुलना में प्रदर्शन में अभी भी महत्वपूर्ण अंतर है। इसके अलावा, ओपन-सोर्स मॉडल की कमी और विश्वसनीय तथ्य सटीकता मूल्यांकन विधियों की कमी भी नैदानिक अनुप्रयोगों को सीमित करती है।

LLaVA-Rad मॉडल का प्रशिक्षण सात विभिन्न स्रोतों से 697,435 रेडियोलॉजी चित्र और रिपोर्ट के डेटा सेट पर आधारित है, जो छाती के एक्स-रे (CXR) इमेजिंग पर केंद्रित है, जो सबसे सामान्य चिकित्सा इमेजिंग परीक्षा प्रकार है। इस मॉडल का डिज़ाइन एक मॉड्यूलर प्रशिक्षण तरीके को अपनाता है, जिसमें एकल-आधारित पूर्व-प्रशिक्षण, संरेखण और फाइन-ट्यूनिंग के तीन चरण शामिल हैं, जो गैर-पाठ आधारित मोड को पाठ आधारित एम्बेडिंग स्पेस में सम्मिलित करने के लिए एक कुशल अनुकूलक तंत्र का उपयोग करते हैं। हालांकि LLaVA-Rad का आकार कुछ बड़े मॉडलों, जैसे Med-PaLM M से छोटा है, प्रदर्शन में यह उत्कृष्ट है, विशेष रूप से ROUGE-L और F1-RadGraph जैसे प्रमुख मापदंडों पर, अन्य समान मॉडलों की तुलना में 12.1% और 10.1% की वृद्धि के साथ।

यह उल्लेखनीय है कि LLaVA-Rad कई डेटा सेटों पर उत्कृष्ट प्रदर्शन बनाए रखता है, यहां तक कि अप्रत्याशित डेटा परीक्षण में भी स्थिरता दिखाता है। यह सब इसके मॉड्यूलर डिज़ाइन और कुशल डेटा उपयोग ढांचे के कारण संभव हुआ है। इसके अलावा, शोध टीम ने CheXprompt लॉन्च किया, जो तथ्य सटीकता के स्वचालित स्कोरिंग के लिए एक माप है, जो नैदानिक अनुप्रयोगों में मूल्यांकन की चुनौतियों को और अधिक हल करता है।

LLaVA-Rad का विमोचन, निस्संदेह, नैदानिक वातावरण में आधारभूत मॉडलों के अनुप्रयोग को आगे बढ़ाने में एक बड़ा कदम है, जो रेडियोलॉजी रिपोर्ट निर्माण के लिए एक हल्का और कुशल समाधान प्रदान करता है, और तकनीक और नैदानिक आवश्यकताओं के बीच और अधिक समेकन का प्रतीक है।

प्रोजेक्ट का पता: https://github.com/microsoft/LLaVA-Med

मुख्य बिंदु:  

🌟 LLaVA-Rad माइक्रोसॉफ्ट अनुसंधान टीम द्वारा लॉन्च किया गया एक छोटा बहु-आधारित मॉडल है, जो रेडियोलॉजी रिपोर्ट के निर्माण पर केंद्रित है।  

💻 इस मॉडल ने 697,435 छाती के एक्स-रे चित्र और रिपोर्ट के जोड़ों पर प्रशिक्षण प्राप्त किया है, जिससे कुशल और उत्कृष्ट प्रदर्शन प्राप्त हुआ है।  

🔍 CheXprompt एक सहायक स्वचालित स्कोरिंग माप है, जो नैदानिक अनुप्रयोगों में मूल्यांकन की चुनौतियों को हल करने में मदद करता है।