Meta ने हाल ही में एक नया मानक परीक्षण जारी किया है, जिसका नाम Multi-IF है, जिसका उद्देश्य बहु-चरण संवाद और बहु-भाषाई वातावरण में बड़े भाषा मॉडलों (LLM) की निर्देश पालन क्षमता का मूल्यांकन करना है। यह मानक आठ भाषाओं को कवर करता है, जिसमें 4501 तीन-चरण संवाद कार्य शामिल हैं, और वर्तमान मॉडलों के जटिल बहु-चरण और बहु-भाषाई परिदृश्यों में प्रदर्शन पर ध्यान केंद्रित करता है।

image.png

वर्तमान मूल्यांकन मानकों में से अधिकांश एकल चरण संवाद और एकल भाषा कार्यों पर केंद्रित हैं, जो वास्तविक अनुप्रयोगों में मॉडलों के प्रदर्शन को पूरी तरह से प्रतिबिंबित करने में असमर्थ हैं। Multi-IF का लॉन्च इस अंतर को भरने के लिए किया गया है। शोध टीम ने एकल चरण निर्देशों को बहु-चरण निर्देशों में विस्तारित करके जटिल संवाद परिदृश्यों का निर्माण किया और यह सुनिश्चित किया कि प्रत्येक चरण का निर्देश तार्किक रूप से सुसंगत और प्रगतिशील हो। इसके अतिरिक्त, डेटा सेट ने स्वचालित अनुवाद और मानव校对 जैसे चरणों के माध्यम से बहु-भाषाई समर्थन प्राप्त किया।

image.png

प्रयोगात्मक परिणाम दिखाते हैं कि अधिकांश LLM बहु-चरण संवाद में प्रदर्शन में महत्वपूर्ण गिरावट दिखाते हैं। उदाहरण के लिए, o1-preview मॉडल का पहले चरण में औसत सटीकता 87.7% थी, लेकिन तीसरे चरण में यह गिरकर 70.7% हो गई। विशेष रूप से गैर-लैटिन लिपियों की भाषाओं में, जैसे हिंदी, रूसी और चीनी, मॉडल का प्रदर्शन सामान्यतः अंग्रेजी से कम है, जो बहु-भाषाई कार्यों में इसकी सीमाओं को दर्शाता है।

14 अग्रणी भाषा मॉडलों के मूल्यांकन में, o1-preview और Llama3.1405B ने सबसे अच्छा प्रदर्शन किया, तीन चरण निर्देशों की औसत सटीकता क्रमशः 78.9% और 78.1% थी। हालाँकि, बहु-चरण संवाद में, सभी मॉडलों की निर्देश पालन क्षमता सामान्यतः गिर गई, जो जटिल कार्यों में मॉडलों की चुनौतियों को दर्शाती है। शोध टीम ने बहु-चरण संवाद में मॉडलों के निर्देश भूलने की घटना को मापने के लिए "निर्देश भूलने की दर" (IFR) को भी पेश किया, और परिणाम दिखाते हैं कि उच्च प्रदर्शन वाले मॉडल इस मामले में अपेक्षाकृत बेहतर प्रदर्शन करते हैं।

Multi-IF का लॉन्च शोधकर्ताओं को एक चुनौतीपूर्ण मानक प्रदान करता है, जो LLM को वैश्विक और बहु-भाषाई अनुप्रयोगों में विकास को प्रोत्साहित करता है। इस मानक के लॉन्च ने न केवल वर्तमान मॉडलों की बहु-चरण, बहु-भाषाई कार्यों में कमी को उजागर किया, बल्कि भविष्य में सुधार के लिए एक स्पष्ट दिशा भी प्रदान की।

पेपर: https://arxiv.org/html/2410.15553v2

मुख्य बिंदु:

🌍 Multi-IF मानक आठ भाषाओं को कवर करता है, जिसमें 4501 तीन-चरण संवाद कार्य शामिल हैं, जो जटिल परिदृश्यों में LLM के प्रदर्शन का मूल्यांकन करता है।  

📉 प्रयोग दिखाते हैं कि अधिकांश LLM बहु-चरण संवाद में सटीकता में महत्वपूर्ण गिरावट दिखाते हैं, विशेष रूप से गैर-लैटिन लिपियों की भाषाओं में प्रदर्शन कमजोर होता है।  

🔍 o1-preview और Llama3.1405B मॉडल ने सबसे अच्छा प्रदर्शन किया, तीन चरण निर्देशों की औसत सटीकता क्रमशः 78.9% और 78.1% थी।