अलीबाबा अंतरराष्ट्रीय एआई टीम ने हाल ही में Marco-o1 नामक एक नई प्रकार की तर्क मॉडल जारी की है, जो विशेष रूप से खुले प्रश्नों के समाधान पर ध्यान केंद्रित करती है, न कि केवल उन विषय क्षेत्रों तक सीमित है जिनमें मानक उत्तर होते हैं, जैसे कि प्रोग्रामिंग और गणित। शोध टीम यह पता लगाने के लिए काम कर रही है कि क्या इस प्रकार के मॉडल को उन क्षेत्रों में प्रभावी ढंग से लागू किया जा सकता है जो मापने में कठिन हैं और जिनमें स्पष्ट पुरस्कार की कमी है।
Marco-o1 मॉडल की विशेषताओं में अत्यधिक लंबी CoT डेटा का उपयोग करके माइक्रो-ट्यूनिंग, MCTS का उपयोग करके समाधान स्थान का विस्तार, और बारीकी से समाधान स्थान का विस्तार शामिल हैं। मॉडल ने self-play+MCTS के माध्यम से ऐसे अत्यधिक लंबे CoT डेटा का निर्माण किया है जिसमें विचार करने और सुधारने की क्षमता है, और इसे अन्य ओपन-सोर्स डेटा के साथ मिलाकर प्रशिक्षित किया गया है। इसके अतिरिक्त, शोध टीम ने मॉडल के समाधान स्थान को और बढ़ाने के लिए mini-Step को परिभाषित किया है, जिससे मॉडल बेहतर उत्तर उत्पन्न करने में मदद मिलती है।
अनुवाद कार्य में, Marco-o1 मॉडल ने लंबी और जटिल वाक्यों के अनुवाद की प्रक्रिया में अपनी क्षमता का प्रदर्शन किया है, यह पहली बार है जब तर्क को मशीन अनुवाद कार्य में विस्तारित किया गया है। शोध टीम ने कुछ CoT डेटा और वर्तमान में सबसे अच्छे मॉडल को ओपन-सोर्स किया है, और भविष्य में और अधिक डेटा और मॉडल ओपन-सोर्स करने की योजना बनाई है।
मॉडल तर्क करते समय उत्तर पर गहराई से विचार करता है, उदाहरण के लिए, जब 'strawberry' शब्द में 'r' की संख्या उत्पन्न करता है, तो मॉडल धीरे-धीरे शब्द के प्रत्येक अक्षर को तोड़ता है और तुलना करता है, अंततः सही परिणाम उत्पन्न करता है। मशीन अनुवाद क्षेत्र में, मॉडल ने तर्क श्रृंखला के माध्यम से कठिनाइयों को सही ढंग से पहचाना, शब्द दर शब्द अनुवाद किया, और समग्र अनुवाद सटीकता में सुधार किया।
शोध टीम ने अन्य क्षेत्रों में भी प्रयास किए हैं, जिससे साबित हुआ है कि यह मॉडल अन्य सामान्य वास्तविक समस्याओं को हल करने की क्षमता रखता है। Marco-o1 की समग्र संरचना self-play+MCTS के माध्यम से विचार करने और सुधारने की क्षमता वाले अत्यधिक लंबे CoT डेटा का निर्माण करती है, और इसे अन्य ओपन-सोर्स डेटा के साथ मिलाकर प्रशिक्षित किया गया है। शोध टीम ने MarcoPolo परिवार के कुछ निर्देश पालन डेटा सेट भी शामिल किए हैं, जिससे मॉडल की निर्देश पालन क्षमता में सुधार हुआ है।
उपयोग के मामले में, शोध टीम ने तर्क कोड और माइक्रो-ट्यूनिंग कोड प्रदान किया है, जिससे उपयोगकर्ता आसानी से मॉडल और टोकनाइज़र को लोड कर सकते हैं, और चैट करना या मॉडल को माइक्रो-ट्यून करना शुरू कर सकते हैं। इसके अलावा, यह मॉडल ModelScope पर GGUF संस्करण में सीधे चलाया जा सकता है, जो एक तेज़ अनुभव प्रदान करता है।
Marco-o1 मॉडल का विमोचन, अलीबाबा अंतरराष्ट्रीय एआई टीम द्वारा तर्क मॉडल क्षेत्र में एक महत्वपूर्ण कदम को चिह्नित करता है, जो खुले प्रश्नों को हल करने के लिए नए विचारों और उपकरणों की पेशकश करता है।
ModelScope:
https://modelscope.cn/models/AIDC-AI/Marco-o1
Arxiv:
https://arxiv.org/abs/2411.14405
Github:
https://github.com/AIDC-AI/Marco-o1
Hugging Face:
https://huggingface.co/AIDC-AI/Marco-o1