हाल ही में, Google, कार्नेगी मेलन विश्वविद्यालय और MultiOn की एक शोध टीम ने बड़े भाषा मॉडल के प्रशिक्षण में सिंथेटिक डेटा के अनुप्रयोग पर एक नया शोध प्रकाशित किया है। AI विकास अनुसंधान संस्थान Epoch AI की रिपोर्ट के अनुसार, वर्तमान में उपलब्ध उच्च-गुणवत्ता वाले पाठ प्रशिक्षण डेटा लगभग 300 ट्रिलियन टोकन है, लेकिन ChatGPT जैसे बड़े मॉडल के तेजी से विकास के साथ, प्रशिक्षण डेटा की मांग तेजी से बढ़ रही है और 2026 तक समाप्त होने की उम्मीद है। इसलिए, सिंथेटिक डेटा एक महत्वपूर्ण विकल्प के रूप में उभर रहा है।

QQ_1743987258822.png

शोधकर्ताओं ने सिंथेटिक डेटा के दो मुख्य प्रकारों, सकारात्मक डेटा और नकारात्मक डेटा का पता लगाया। सकारात्मक डेटा GPT-4 और Gemini 1.5 Pro जैसे उच्च-प्रदर्शन वाले बड़े भाषा मॉडल द्वारा उत्पन्न सही समस्या-समाधान हैं। यह डेटा मॉडल को गणितीय समस्याओं को हल करने के तरीके के उदाहरण प्रदान करता है। हालाँकि, केवल सकारात्मक डेटा पर निर्भर प्रशिक्षण की अपनी सीमाएँ हैं। सबसे पहले, यह विधि समस्या-समाधान प्रक्रिया के आंतरिक तर्क को पूरी तरह से स्पष्ट नहीं कर सकती है, और मॉडल केवल पैटर्न मिलान के माध्यम से सीख सकता है, वास्तविक समझ तक नहीं पहुँच सकता है। दूसरा, जैसे-जैसे प्रशिक्षण डेटा बढ़ता है, मॉडल गलत संयोगिक संबंधों को सीख सकता है, जिससे नई समस्याओं से निपटने में इसकी सामान्यीकरण क्षमता कम हो सकती है।

इसलिए, शोधकर्ताओं ने नकारात्मक डेटा नामक एक प्रकार को पेश किया। इस डेटा में गलत और सत्यापित समाधान प्रक्रियाएँ शामिल हैं, जिससे मॉडल गलतियों को पहचानने और उनसे बचने की क्षमता में सुधार कर सकता है और तार्किक तर्क क्षमता को मजबूत कर सकता है। नकारात्मक डेटा के उपयोग में यह चुनौती है कि गलत प्रक्रियाएँ भ्रामक हो सकती हैं, लेकिन DPO (प्रत्यक्ष प्राथमिकता अनुकूलन) विधि का उपयोग करके अनुकूलन करके, शोधकर्ता मॉडल को गलतियों से सीखने और प्रत्येक समाधान प्रक्रिया के महत्व पर जोर देने में सफल रहे।

DPO विधि प्रत्येक समाधान प्रक्रिया को एक वरीयता मान प्रदान करती है जो उस प्रक्रिया के आदर्श समाधान के मूल्य को दर्शाता है। शोध के अनुसार, उच्च वरीयता मान वाली प्रक्रियाएँ सही समाधान की कुंजी हैं, जबकि कम वरीयता मान वाली प्रक्रियाएँ मॉडल के अनुमान में समस्याओं का संकेत दे सकती हैं। इन वरीयता मानों के साथ, मॉडल रणनीतियों को गतिशील रूप से समायोजित कर सकता है और सिंथेटिक डेटा को अधिक कुशलता से सीख और सुधार सकता है।

सिंथेटिक डेटा के प्रभाव का परीक्षण करने के लिए, शोध दल ने GSM8K और MATH डेटासेट पर DeepSeek-Math-7B, LLama2-7B जैसे मॉडल का व्यापक रूप से परीक्षण किया। परिणामस्वरूप, सकारात्मक और नकारात्मक सिंथेटिक डेटा के साथ पूर्व-प्रशिक्षित बड़े भाषा मॉडल ने गणितीय तर्क कार्यों में 8 गुना प्रदर्शन में सुधार दिखाया। यह शोध परिणाम दर्शाता है कि सिंथेटिक डेटा में बड़े भाषा मॉडल की तार्किक तर्क क्षमता में सुधार की बड़ी क्षमता है।

मुख्य बिंदु:

📊 सिंथेटिक डेटा बढ़ती प्रशिक्षण डेटा की मांग को पूरा करने का एक प्रभावी विकल्प है।

🧩 सकारात्मक और नकारात्मक डेटा के संयोजन से मॉडल की गणितीय तर्क और तार्किक क्षमता में सुधार होता है।

🚀 शोध के अनुसार, सिंथेटिक डेटा के साथ पूर्व-प्रशिक्षण के बाद, बड़े भाषा मॉडल की अनुमान क्षमता 8 गुना बढ़ गई है।