स्व-पुरस्कृत भाषा मॉडल
भाषा मॉडल स्व-पुरस्कृत प्रशिक्षण
सामान्य उत्पादउत्पादकताभाषा मॉडलस्व-पुरस्कार
यह उत्पाद एक स्व-पुरस्कृत भाषा मॉडल है, जो एक निर्णायक के रूप में LLM का उपयोग करके, मॉडल द्वारा प्रदान किए गए स्वयं के पुरस्कार संकेतों के माध्यम से प्रशिक्षित होता है। पुनरावृति DPO प्रशिक्षण के माध्यम से, मॉडल न केवल निर्देशों का पालन करने की क्षमता में सुधार करता है, बल्कि उच्च-गुणवत्ता वाले स्व-पुरस्कार भी प्रदान करता है। तीन पुनरावृत्तियों के फाइन-ट्यूनिंग के बाद, इस उत्पाद ने AlpacaEval 2.0 रैंकिंग में कई मौजूदा प्रणालियों को पीछे छोड़ दिया है, जिनमें Claude 2, Gemini Pro और GPT-4 0613 शामिल हैं। यह कार्य यद्यपि प्रारंभिक शोध ही है, लेकिन मॉडल के दो पहलुओं में निरंतर सुधार की संभावना का द्वार खोलता है।
स्व-पुरस्कृत भाषा मॉडल नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
29742941
बाउंस दर
44.20%
प्रति विज़िट औसत पृष्ठ
5.9
औसत विज़िट अवधि
00:04:44