अलीबाबा अंतरराष्ट्रीय एआई टीम ने हाल ही में Marco-o1 नामक एक नई प्रकार की तर्क मॉडल जारी की है, जो विशेष रूप से खुले प्रश्नों के समाधान पर ध्यान केंद्रित करती है, न कि केवल उन विषय क्षेत्रों तक सीमित है जिनमें मानक उत्तर होते हैं, जैसे कि प्रोग्रामिंग और गणित। शोध टीम यह पता लगाने के लिए काम कर रही है कि क्या इस प्रकार के मॉडल को उन क्षेत्रों में प्रभावी ढंग से लागू किया जा सकता है जो मापने में कठिन हैं और जिनमें स्पष्ट पुरस्कार की कमी है।

微信截图_20241126082757.png

Marco-o1 मॉडल की विशेषताओं में अत्यधिक लंबी CoT डेटा का उपयोग करके माइक्रो-ट्यूनिंग, MCTS का उपयोग करके समाधान स्थान का विस्तार, और बारीकी से समाधान स्थान का विस्तार शामिल हैं। मॉडल ने self-play+MCTS के माध्यम से ऐसे अत्यधिक लंबे CoT डेटा का निर्माण किया है जिसमें विचार करने और सुधारने की क्षमता है, और इसे अन्य ओपन-सोर्स डेटा के साथ मिलाकर प्रशिक्षित किया गया है। इसके अतिरिक्त, शोध टीम ने मॉडल के समाधान स्थान को और बढ़ाने के लिए mini-Step को परिभाषित किया है, जिससे मॉडल बेहतर उत्तर उत्पन्न करने में मदद मिलती है।

अनुवाद कार्य में, Marco-o1 मॉडल ने लंबी और जटिल वाक्यों के अनुवाद की प्रक्रिया में अपनी क्षमता का प्रदर्शन किया है, यह पहली बार है जब तर्क को मशीन अनुवाद कार्य में विस्तारित किया गया है। शोध टीम ने कुछ CoT डेटा और वर्तमान में सबसे अच्छे मॉडल को ओपन-सोर्स किया है, और भविष्य में और अधिक डेटा और मॉडल ओपन-सोर्स करने की योजना बनाई है।

微信截图_20241126082711.png

मॉडल तर्क करते समय उत्तर पर गहराई से विचार करता है, उदाहरण के लिए, जब 'strawberry' शब्द में 'r' की संख्या उत्पन्न करता है, तो मॉडल धीरे-धीरे शब्द के प्रत्येक अक्षर को तोड़ता है और तुलना करता है, अंततः सही परिणाम उत्पन्न करता है। मशीन अनुवाद क्षेत्र में, मॉडल ने तर्क श्रृंखला के माध्यम से कठिनाइयों को सही ढंग से पहचाना, शब्द दर शब्द अनुवाद किया, और समग्र अनुवाद सटीकता में सुधार किया।

शोध टीम ने अन्य क्षेत्रों में भी प्रयास किए हैं, जिससे साबित हुआ है कि यह मॉडल अन्य सामान्य वास्तविक समस्याओं को हल करने की क्षमता रखता है। Marco-o1 की समग्र संरचना self-play+MCTS के माध्यम से विचार करने और सुधारने की क्षमता वाले अत्यधिक लंबे CoT डेटा का निर्माण करती है, और इसे अन्य ओपन-सोर्स डेटा के साथ मिलाकर प्रशिक्षित किया गया है। शोध टीम ने MarcoPolo परिवार के कुछ निर्देश पालन डेटा सेट भी शामिल किए हैं, जिससे मॉडल की निर्देश पालन क्षमता में सुधार हुआ है।

उपयोग के मामले में, शोध टीम ने तर्क कोड और माइक्रो-ट्यूनिंग कोड प्रदान किया है, जिससे उपयोगकर्ता आसानी से मॉडल और टोकनाइज़र को लोड कर सकते हैं, और चैट करना या मॉडल को माइक्रो-ट्यून करना शुरू कर सकते हैं। इसके अलावा, यह मॉडल ModelScope पर GGUF संस्करण में सीधे चलाया जा सकता है, जो एक तेज़ अनुभव प्रदान करता है।

Marco-o1 मॉडल का विमोचन, अलीबाबा अंतरराष्ट्रीय एआई टीम द्वारा तर्क मॉडल क्षेत्र में एक महत्वपूर्ण कदम को चिह्नित करता है, जो खुले प्रश्नों को हल करने के लिए नए विचारों और उपकरणों की पेशकश करता है।

ModelScope:

https://modelscope.cn/models/AIDC-AI/Marco-o1

Arxiv:

https://arxiv.org/abs/2411.14405

Github:

https://github.com/AIDC-AI/Marco-o1

Hugging Face:

https://huggingface.co/AIDC-AI/Marco-o1