जिज्ञासा अनुसंधान संस्थान ने एक ऐसा डेटा सेट लॉन्च किया है जिसका नाम Infinity-Instruct है, जिसमें करोड़ों निर्देशों का सूक्ष्म समायोजन डेटा सेट है, जिसका उद्देश्य संवाद जैसे क्षेत्रों में भाषा मॉडल के प्रदर्शन को बढ़ाना है। हाल ही में, Infinity Instruct ने एक नई श्रृंखला पूरी की है, जिसमें Infinity-Instruct-7M आधार निर्देश डेटा सेट और Infinity-Instruct-Gen संवाद निर्देश डेटा सेट शामिल हैं।

Infinity-Instruct-7M आधार निर्देश डेटा सेट में 74 लाख से अधिक डेटा शामिल हैं, जो गणित, कोड, सामान्य ज्ञान प्रश्नोत्तर जैसे क्षेत्रों को कवर करते हैं, और प्री-ट्रेंड मॉडल की मूल क्षमताओं को बढ़ाने पर ध्यान केंद्रित करते हैं। परीक्षण परिणामों से पता चलता है कि इस डेटा सेट का उपयोग करके सूक्ष्म समायोजित Llama3.1-70B और Mistral-7B-v0.1 मॉडल, समग्र क्षमता में आधिकारिक रूप से जारी संवाद मॉडल के करीब पहुंच गए हैं, जिसमें Mistral-7B ने तो GPT-3.5 को भी पार कर लिया है, जबकि Llama3.1-70B GPT-4 के करीब है।

微信截图_20240924091124.png

Infinity-Instruct-Gen संवाद निर्देश डेटा सेट में 14.9 लाख संश्लेषित जटिल निर्देश शामिल हैं, जिसका उद्देश्य मॉडल की वास्तविक संवाद परिदृश्यों में स्थिरता को बढ़ाना है। इस डेटा सेट का उपयोग करके आगे सूक्ष्म समायोजन करने के बाद, मॉडल का प्रदर्शन आधिकारिक संवाद मॉडल से बेहतर हो सकता है।

जिज्ञासा अनुसंधान संस्थान ने MTBench, AlpacaEval2, Arena-Hard जैसे प्रमुख परीक्षण सूचियों पर Infinity-Instruct का परीक्षण किया, और परिणाम बताते हैं कि Infinity-Instruct के सूक्ष्म समायोजन के बाद मॉडल संवाद क्षमताओं में आधिकारिक मॉडल को पार कर चुके हैं।

Infinity-Instruct प्रत्येक निर्देश डेटा के लिए विस्तृत लेबल प्रदान करता है, जैसे भाषा, क्षमता प्रकार, कार्य प्रकार और डेटा स्रोत, जिससे उपयोगकर्ताओं को उनकी आवश्यकताओं के अनुसार डेटा उप-सेट को छानने में सुविधा होती है। जिज्ञासा अनुसंधान संस्थान ने डेटा चयन और निर्देश संश्लेषण के माध्यम से उच्च गुणवत्ता वाले डेटा सेट का निर्माण किया है, ताकि ओपन-सोर्स संवाद मॉडल और GPT-4 के बीच के अंतर को पाटा जा सके।

इस परियोजना ने सूक्ष्म समायोजन की लागत को कम करने के लिए FlagScale प्रशिक्षण ढांचे का उपयोग किया है, और MinHash डुप्लिकेट हटाने और BGE खोज के माध्यम से पुनरावृत्त नमूनों को हटाया है। जिज्ञासा भविष्य में डेटा प्रसंस्करण और मॉडल प्रशिक्षण की संपूर्ण प्रक्रिया का कोड ओपन-सोर्स करने की योजना बना रहा है, और Infinity-Instruct डेटा रणनीति को संरेखण और प्री-ट्रेनिंग चरणों में विस्तारित करने की खोज कर रहा है, ताकि भाषा मॉडल के संपूर्ण जीवन चक्र डेटा आवश्यकताओं का समर्थन किया जा सके।

डेटा सेट लिंक:

https://modelscope.cn/datasets/BAAI/Infinity-Instruct