हाल ही में, एप्पल कंपनी की आर्टिफिशियल इंटेलिजेंस टीम ने वॉशिंगटन विश्वविद्यालय जैसी कई संस्थाओं के साथ मिलकर DCLM नामक एक ओपन-सोर्स भाषा मॉडल लॉन्च किया है। इस मॉडल के पास 700 मिलियन पैरामीटर हैं और इसे प्रशिक्षित करने के लिए 2.5 ट्रिलियन डेटा टोकन का उपयोग किया गया है, जो हमें भाषा को बेहतर तरीके से समझने और उत्पन्न करने में मदद करता है।
तो, भाषा मॉडल क्या है? सरल शब्दों में, यह एक ऐसा प्रोग्राम है जो भाषा का विश्लेषण और उत्पादन कर सकता है, जिससे हमें विभिन्न कार्यों को पूरा करने में मदद मिलती है, जैसे कि अनुवाद, टेक्स्ट उत्पादन और भावना विश्लेषण। इन मॉडलों को बेहतर प्रदर्शन करने के लिए, हमें उच्च गुणवत्ता वाले डेटा सेट की आवश्यकता होती है। हालांकि, इन डेटा को प्राप्त करना और व्यवस्थित करना आसान नहीं है, क्योंकि हमें अप्रासंगिक या हानिकारक सामग्री को छानना और दोहराई गई जानकारी को हटाना होता है।
इस चुनौती का सामना करने के लिए, एप्पल की शोध टीम ने "डेटा सेट प्रतियोगिता" (DataComp for Language Models, संक्षेप में DCLM) पेश की है, जो भाषा मॉडलों के लिए डेटा सेट अनुकूलन उपकरण है। उन्होंने हाल ही में Hugging Face प्लेटफॉर्म पर DCIM मॉडल और डेटा सेट को ओपन-सोर्स किया है। ओपन-सोर्स संस्करण में DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0 और dclm-baseline-1.0-parquet शामिल हैं, जिससे शोधकर्ता इस प्लेटफॉर्म पर बड़े पैमाने पर प्रयोग कर सकते हैं और सबसे प्रभावी डेटा संगठन रणनीतियों को खोज सकते हैं।
https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b
DCLM का मुख्य लाभ इसकी संरचित कार्यप्रणाली में है। शोधकर्ता अपनी आवश्यकता के अनुसार विभिन्न आकार के मॉडल चुन सकते हैं, जो 412 मिलियन से 700 मिलियन पैरामीटर के बीच होते हैं, और वे विभिन्न डेटा संगठन विधियों, जैसे कि डुप्लिकेट हटाने और छानने का परीक्षण कर सकते हैं। इन प्रणालीबद्ध प्रयोगों के माध्यम से, शोधकर्ता विभिन्न डेटा सेट की गुणवत्ता का स्पष्ट मूल्यांकन कर सकते हैं। यह न केवल भविष्य के शोध के लिए आधार तैयार करता है, बल्कि हमें यह समझने में भी मदद करता है कि डेटा सेट में सुधार करके मॉडल के प्रदर्शन को कैसे बढ़ाया जा सकता है।
उदाहरण के लिए, DCLM द्वारा स्थापित बेंचमार्क डेटा सेट का उपयोग करते हुए, शोध टीम ने 700 मिलियन पैरामीटर वाले एक भाषा मॉडल को प्रशिक्षित किया, जिसने MMLU बेंचमार्क परीक्षण में 64% का 5-शॉट सटीकता प्राप्त की! यह पहले के उच्चतम स्तर की तुलना में 6.6 प्रतिशत अंक की वृद्धि है, और उपयोग किए गए कंप्यूटिंग संसाधनों में 40% की कमी आई है। DCLM बेसलाइन मॉडल का प्रदर्शन Mistral-7B-v0.3 और Llama38B के समान है, जबकि बाद के दोनों को अधिक कंप्यूटिंग संसाधनों की आवश्यकता होती है।
DCLM का लॉन्च भाषा मॉडल के शोध के लिए एक नया मानक प्रदान करता है, जो वैज्ञानिकों को मॉडल के प्रदर्शन को प्रणालीबद्ध तरीके से बढ़ाने में मदद करता है, साथ ही आवश्यक कंप्यूटिंग संसाधनों को भी कम करता है।
मुख्य बिंदु:
1️⃣ एप्पल AI ने कई संस्थाओं के साथ मिलकर DCLM लॉन्च किया, जो एक शक्तिशाली ओपन-सोर्स भाषा मॉडल है।
2️⃣ DCLM मानकीकृत डेटा सेट अनुकूलन उपकरण प्रदान करता है, जो शोधकर्ताओं को प्रभावी प्रयोग करने में मदद करता है।
3️⃣ नया मॉडल महत्वपूर्ण परीक्षणों में महत्वपूर्ण प्रगति करता है, साथ ही कंप्यूटिंग संसाधनों की आवश्यकता को भी कम करता है।