हाल ही में, ओपन-सोर्स समुदाय से अच्छी खबर आई है: शंघाई AI Lab टीम ने LLaMA संस्करण o1 प्रोजेक्ट जारी किया है, जिसका उद्देश्य OpenAI के गणितीय समस्या हल करने वाले उपकरण o1 की नकल करना है। इस प्रोजेक्ट में कई उन्नत तकनीकों का उपयोग किया गया है, जिसमें मोंटे कार्लो ट्री सर्च, सेल्फ-प्ले रिइन्फोर्समेंट लर्निंग, PPO और AlphaGo Zero की डुअल स्ट्रैटेजी पैराजाइम शामिल हैं, जिसने डेवलपर समुदाय का व्यापक ध्यान आकर्षित किया है।
OpenAI के o1 श्रृंखला के जारी होने से पहले, शंघाई AI Lab टीम ने बड़े मॉडलों की गणितीय क्षमताओं को बढ़ाने के लिए मोंटे कार्लो ट्री सर्च का उपयोग करने की खोज शुरू कर दी थी। o1 के जारी होने के बाद, टीम ने एल्गोरिदम को और बेहतर किया, गणितीय ओलंपियाड की समस्याओं पर ध्यान केंद्रित किया, और इसे OpenAI के स्ट्रॉबेरी प्रोजेक्ट के ओपन-सोर्स संस्करण के रूप में विकसित किया।
LLaMA मॉडल के गणितीय ओलंपियाड समस्याओं पर प्रदर्शन को बढ़ाने के लिए, टीम ने पेयर ऑप्टिमाइजेशन रणनीति अपनाई, जिसका अर्थ है कि वे सीधे उत्तर के सटीक स्कोर नहीं देते, बल्कि दो उत्तरों की तुलना करते हैं। इस विधि के माध्यम से, उन्होंने सबसे कठिन AIME2024 बेंचमार्क परीक्षण में महत्वपूर्ण प्रगति की। 30 परीक्षण प्रश्नों में, ऑप्टिमाइज्ड मॉडल ने 8 सही उत्तर दिए, जबकि मूल LLaMA-3.1-8B-Instruct मॉडल ने केवल 2 सही उत्तर दिए। यह प्रदर्शन o1-preview और o1-mini को छोड़कर अन्य सभी व्यावसायिक बंद-सोर्स समाधानों से बेहतर है।
अक्टूबर के अंत में, टीम ने AlphaGo Zero आर्किटेक्चर पर OpenAI o1 की नकल करने में महत्वपूर्ण प्रगति की घोषणा की, सफलतापूर्वक मॉडल को उच्च स्तर की सोच क्षमता प्राप्त करने में सक्षम बनाया, बिना किसी मानव लेबलिंग के। एक सप्ताह से भी कम समय में, प्रोजेक्ट को ओपन-सोर्स कर दिया गया।
वर्तमान में, LLaMA संस्करण o1 के ओपन-सोर्स सामग्री में शामिल हैं: प्री-ट्रेंड डेटा सेट, प्री-ट्रेंड मॉडल, रिइन्फोर्समेंट लर्निंग ट्रेनिंग कोड। इनमें "OpenLongCoT-Pretrain" डेटा सेट शामिल है, जिसमें 100,000 से अधिक लंबे सोच श्रृंखला डेटा हैं, प्रत्येक डेटा में एक पूर्ण गणितीय समस्या की तर्क प्रक्रिया शामिल है, जिसमें विचार सामग्री, स्कोरिंग परिणाम, प्रश्न विवरण, ग्राफिकल कोऑर्डिनेट्स, गणना प्रक्रिया, निष्कर्ष निकाला गया है, और विभिन्न तर्क कदमों की आलोचना और सत्यापन सामग्री शामिल है, जो तर्क प्रक्रिया के लिए मूल्यांकन और मार्गदर्शन प्रदान करती है। इस डेटा सेट पर आगे प्री-ट्रेनिंग के बाद, मॉडल o1 की तरह लंबे सोच श्रृंखला प्रक्रिया को पढ़ और आउटपुट कर सकता है।
हालांकि प्रोजेक्ट का नाम LLaMA-O1 है, लेकिन वर्तमान में आधिकारिक तौर पर प्रदान किया गया प्री-ट्रेंड मॉडल Google के Gemma2 पर आधारित है। प्री-ट्रेंड मॉडल के आधार पर, डेवलपर्स आगे रिइन्फोर्समेंट लर्निंग ट्रेनिंग जारी रख सकते हैं। प्रशिक्षण प्रक्रिया में शामिल हैं: अनुभव उत्पन्न करने के लिए मोंटे कार्लो ट्री सर्च का उपयोग करके आत्म-खेलना; अनुभव को प्राथमिकता अनुभव पुनःप्रदर्शन बफर में संग्रहीत करना; बफर से बैच डेटा का नमूना लेना; मॉडल पैरामीटर और अनुभव प्राथमिकता को अपडेट करना। प्रशिक्षण कोड में कुछ महत्वपूर्ण तकनीकों का भी उपयोग किया गया है, जिसमें LoRA का उपयोग करके पैरामीटर कुशलता से माइक्रो-ट्यूनिंग करना, PPO एल्गोरिदम का उपयोग रणनीति ऑप्टिमाइजेशन विधि के रूप में, GAEs का उपयोग लाभ फ़ंक्शन की गणना के लिए, और प्राथमिकता अनुभव पुनःप्रदर्शन का उपयोग करके प्रशिक्षण दक्षता बढ़ाना शामिल है।
यह ध्यान देने योग्य है कि LLaMA-O1 कोड SimpleBerry नामक GitHub खाते पर जारी किया गया है, जिसका कोई विशेष विवरण नहीं है, जो इसे काफी रहस्यमय बनाता है। SimpleBerry से संबंधित अन्य खातों और वेबसाइट की जानकारी से केवल इतना ही पता चलता है कि इसकी प्रकृति एक अनुसंधान प्रयोगशाला है, लेकिन इसके अनुसंधान दिशा के बारे में और अधिक जानकारी नहीं दी गई है।
LLaMA-O1 के अलावा, एक और ओपन प्रगति o1 नकल परियोजना शंघाई जियाओ टोंग विश्वविद्यालय टीम से O1-Journey है। इस टीम ने अक्टूबर की शुरुआत में पहली प्रगति रिपोर्ट जारी की, जिसमें नवोन्मेषी Journey Learning पैराजाइम और गणितीय तर्क में खोज और अध्ययन को एकीकृत करने वाले पहले सफल मॉडल का परिचय दिया। O1-Journey की मुख्य विकास टीम मुख्य रूप से शंघाई जियाओ टोंग विश्वविद्यालय के तीसरे और चौथे वर्ष के अंडरग्रेजुएट छात्रों, और शंघाई जियाओ टोंग विश्वविद्यालय के GAIR प्रयोगशाला (जनरेटिव आर्टिफिशियल इंटेलिजेंस रिसर्च लैब) के पहले वर्ष के डॉक्टरेट छात्रों से बनी है, जिसमें मार्गदर्शक शिक्षक शंघाई जियाओ टोंग विश्वविद्यालय के सह-प्रोफेसर लियू पेंगफेई, याओ बान के पूर्व छात्र, और स्लोन पुरस्कार विजेता ली युआनज़ी शामिल हैं।
पेपर का पता: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394