Starling-7B
Verbesserte Nutzbarkeit und Sicherheit für LLMs
Normales ProduktChattenSprachmodellVerstärkendes Lernen
Starling-7B ist ein offenes, großes Sprachmodell (LLM), das mithilfe von Reinforcement Learning from Human Feedback (RLHF) trainiert wurde. Es profitiert von unserem neuen, von GPT-4 annotierten Datensatz Nectar und optimierten Belohnungs- und Strategieanpassungsverfahren. Starling-7B erreicht im MT-Bench (mit GPT-4 als Bewerter) einen Score von 8,09 und übertrifft damit alle derzeit verfügbaren Modelle, mit Ausnahme von OpenAIs GPT-4 und GPT-4 Turbo. Wir haben den Ranking-Datensatz Nectar, das Belohnungsmodell Starling-RM-7B-alpha und das Sprachmodell Starling-LM-7B-alpha auf Hugging Face veröffentlicht, sowie eine Online-Demo in der LMSYS Chatbot Arena bereitgestellt. Weitere Details zum gesamten Prozess werden in Kürze in unserer kommenden Veröffentlichung (Code und Paper) erläutert.