ReFT
LLM तर्क शक्ति को बढ़ाने वाला ReFT
सामान्य उत्पादउत्पादकताकृत्रिम बुद्धिमत्तातर्क
ReFT बड़े भाषा मॉडल (LLM) की तर्क शक्ति को बढ़ाने का एक सरल और प्रभावी तरीका है। यह पहले पर्यवेक्षित सूक्ष्म-समायोजन (SFT) के माध्यम से मॉडल को प्रीहीट करता है, और फिर ऑनलाइन सुदृढीकरण अधिगम, विशेष रूप से इस लेख में PPO एल्गोरिथ्म का उपयोग करके, मॉडल को और अधिक सूक्ष्म-समायोजित करता है। ReFT दिए गए प्रश्न के लिए बड़ी संख्या में तर्क पथों के स्वत: नमूनाकरण के द्वारा, और वास्तविक उत्तरों से स्वाभाविक रूप से पुरस्कार प्राप्त करके, SFT से स्पष्ट रूप से बेहतर प्रदर्शन करता है। ReFT का प्रदर्शन तर्क समय रणनीतियों (जैसे बहुमत मतदान और पुन: क्रमबद्ध) के संयोजन से और बढ़ाया जा सकता है। ध्यान देने योग्य बात यह है कि ReFT अतिरिक्त या बढ़े हुए प्रशिक्षण प्रश्नों पर निर्भर किए बिना, SFT के समान प्रशिक्षण प्रश्नों को सीखकर सुधार प्राप्त करता है। यह दर्शाता है कि ReFT में अधिक मजबूत सामान्यीकरण क्षमता है।
ReFT नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
29742941
बाउंस दर
44.20%
प्रति विज़िट औसत पृष्ठ
5.9
औसत विज़िट अवधि
00:04:44