नए शोध में, गूगल ने कार्नेगी मेलन विश्वविद्यालय और मल्टीऑन टीम के साथ मिलकर बड़े मॉडल के प्रशिक्षण पर सिंथेटिक डेटा के प्रभाव का पता लगाया है। उन्होंने पाया कि सिंथेटिक डेटा बड़े मॉडल के तार्किक अनुमान में, विशेष रूप से गणितीय समस्याओं को हल करने की क्षमता में आठ गुना तक की अद्भुत वृद्धि कर सकता है। यह खोज वर्तमान में प्रशिक्षण डेटा की कमी की स्थिति के लिए महत्वपूर्ण है।
वर्तमान में, लगभग 300 ट्रिलियन उच्च-गुणवत्ता वाले पाठ प्रशिक्षण डेटा वैश्विक स्तर पर उपलब्ध हैं, लेकिन ChatGPT जैसे मॉडल के व्यापक उपयोग के साथ, प्रशिक्षण डेटा की मांग में तेजी से वृद्धि हुई है, और यह अनुमान है कि 2026 तक यह मांग पूरी नहीं हो पाएगी। इस संदर्भ में, सिंथेटिक डेटा एक महत्वपूर्ण विकल्प बन गया है।
शोध दल ने मुख्य रूप से दो प्रकार के सिंथेटिक डेटा का पता लगाया: सकारात्मक डेटा और नकारात्मक डेटा। सकारात्मक डेटा GPT-4 और Gemini1.5Pro जैसे उच्च-प्रदर्शन मॉडल द्वारा उत्पन्न सही समस्या समाधान हैं, जो अन्य मॉडल के लिए उदाहरण प्रदान करते हैं। हालांकि, केवल सकारात्मक डेटा पर प्रशिक्षण की कुछ कमियाँ हैं। उदाहरण के लिए, मॉडल पैटर्न मिलान के माध्यम से सीख सकते हैं, लेकिन समस्या को हल करने की प्रक्रिया को वास्तव में नहीं समझ सकते हैं, जिससे उनकी सामान्यीकरण क्षमता कम हो जाती है।
इन कमियों को दूर करने के लिए, शोध दल ने नकारात्मक डेटा पेश किया, जो मुख्य रूप से समस्या को हल करने के गलत चरणों के रूप में सत्यापित किए गए हैं। यह डेटा मॉडल को सामान्य गलतियों की पहचान करने में मदद करता है, जिससे उनकी तार्किक अनुमान क्षमता में सुधार होता है। हालांकि नकारात्मक डेटा के उपयोग में कुछ चुनौतियां हैं, क्योंकि गलत चरण भ्रामक जानकारी ले जा सकते हैं, शोधकर्ताओं ने प्रत्यक्ष प्राथमिकता अनुकूलन (DPO) विधि के माध्यम से मॉडल को गलतियों से प्रभावी ढंग से सीखने में सक्षम बनाया है, जिससे समस्या को हल करने की प्रक्रिया में प्रत्येक चरण के महत्व को स्पष्ट किया जा सकता है।
शोध प्रक्रिया में, टीम ने DeepSeek-Math-7B और LLaMa2-7B जैसे मॉडल का उपयोग किया और GSM8K और MATH डेटासेट पर बड़े पैमाने पर परीक्षण किए। परिणामों से पता चला है कि सकारात्मक और नकारात्मक सिंथेटिक डेटा के साथ पूर्व-प्रशिक्षित बड़े मॉडल गणितीय तर्क कार्यों में आठ गुना बेहतर प्रदर्शन करते हैं। यह शोध न केवल बड़े मॉडल की तार्किक अनुमान क्षमता को बढ़ाने में सिंथेटिक डेटा की विशाल क्षमता को साबित करता है, बल्कि भविष्य के मॉडल प्रशिक्षण के लिए नए विचार भी प्रदान करता है।