स्टार्लिंग-7B

LLM की उपयोगिता और सुरक्षा में वृद्धि

सामान्य उत्पादचैटिंगभाषा मॉडलसुदृढीकरण अधिगम
स्टार्लिंग-7B एक खुला बड़ा भाषा मॉडल (LLM) है जिसे कृत्रिम बुद्धिमत्ता से प्रतिक्रिया (RLAIF) के आधार पर सुदृढीकरण अधिगम द्वारा प्रशिक्षित किया गया है। यह हमारे नए GPT-4 टोकन क्रमबद्ध डेटासेट नेक्टर और नई पुरस्कार प्रशिक्षण और नीति ट्यूनिंग प्रक्रिया से पूरी तरह से कार्य करता है। GPT-4 को निर्णायक मानते हुए, MT बेंच में स्टार्लिंग-7B का स्कोर 8.09 है, जो वर्तमान में सभी मॉडलों को पीछे छोड़ता है, सिवाय OpenAI के GPT-4 और GPT-4 टर्बो के। हमने HuggingFace पर रैंकिंग डेटासेट नेक्टर, पुरस्कार मॉडल स्टार्लिंग-RM-7B-अल्फा और भाषा मॉडल स्टार्लिंग-LM-7B-अल्फा, साथ ही LMSYS चैटबॉट एरिना में ऑनलाइन प्रदर्शन जारी किया है। हमारे आगामी कोड और शोध पत्र की प्रतीक्षा करें, जिसमें इस पूरी प्रक्रिया के बारे में अधिक जानकारी दी जाएगी।
वेबसाइट खोलें

स्टार्लिंग-7B विकल्प