UCSC-VLAA टीम द्वारा "MedTrinity-25M" बड़े पैमाने पर मल्टीमॉडल डेटासेट आधिकारिक रूप से जारी किया गया है। इस डेटासेट में 2500 लाख चिकित्सा छवियाँ और विस्तृत टिप्पणियाँ शामिल हैं। चिकित्सा क्षेत्र में यह एक महत्वपूर्ण नवाचार है, जिसमें बहु-ग्रैन्युलर टिप्पणियाँ हैं, जो शोधकर्ताओं को चिकित्सा डेटा को बेहतर ढंग से समझने और लागू करने में मदद करती हैं, ताकि चिकित्सा मल्टीमॉडल बड़े मॉडल को प्रशिक्षित किया जा सके।

image.png

MedTrinity-25M का निर्माण प्रक्रिया काफी जटिल है, टीम ने सावधानीपूर्वक डेटा प्रोसेसिंग की, विभिन्न प्रकार के डेटा से महत्वपूर्ण जानकारी निकाली, मेटाडेटा को एकीकृत किया, मोटे शीर्षक बनाए, रुचि के क्षेत्रों का定位 किया, और संबंधित चिकित्सा ज्ञान एकत्र किया। और भी दिलचस्प बात यह है कि उन्होंने इन जानकारियों का उपयोग करके बड़े पैमाने पर भाषा मॉडल (MLLM) का उपयोग करके विस्तृत विवरण उत्पन्न किया। यह विधि न केवल डेटा की उपयोगिता को बढ़ाती है, बल्कि चिकित्सा अनुसंधान के लिए नए दिशा-निर्देश भी खोलती है।

image.png

जारी करने की प्रक्रिया के बारे में बात करते हुए, यह उल्लेखनीय है कि MedTrinity-25M का डेमो डेटासेट जून 2024 में पहले ही ऑनलाइन आ गया था, जबकि पूर्ण डेटासेट 21 जुलाई को आधिकारिक रूप से जारी किया गया, और हाल ही में 7 अगस्त को, उन्होंने संबंधित पेपर भी प्रकाशित किया।

डेटासेट के अलावा, टीम ने कई पूर्व-प्रशिक्षित मॉडल भी प्रदान किए हैं, जैसे कि LLaVA-Med++, जो कई चिकित्सा कार्यों में उत्कृष्ट प्रदर्शन करते हैं। शोधकर्ता इन उपकरणों का उपयोग करके अपने प्रोजेक्ट को बेहतर तरीके से पूरा कर सकते हैं, जिससे चिकित्सा अनुसंधान की दक्षता में काफी वृद्धि होती है।

MedTrinity-25M चिकित्सा क्षेत्र के लिए एक मूल्यवान संसाधन प्रदान करता है, आशा है कि सभी इस डेटासेट का पूरा उपयोग करेंगे, जिससे चिकित्सा अनुसंधान के विकास को बढ़ावा मिलेगा।

प्रोजेक्ट लिंक: https://top.aibase.com/tool/medtrinity-25m