Starling-7B

LLM の可用性と安全性を向上

一般製品チャット言語モデル強化学習
Starling-7Bは、AIからのフィードバックによる強化学習(RLAIF)によって訓練された、オープンソースの大規模言語モデル(LLM)です。GPT-4による新しいトークンランキングデータセット「Nectar」と、新しい報酬訓練と方策調整プロセスを活用することで、その能力を最大限に発揮しています。Starling-7Bは、GPT-4を評価者として用いたMT Benchにおいて8.09点を獲得し、OpenAIのGPT-4とGPT-4 Turboを除く、現存するすべてのモデルを上回っています。ランキングデータセット「Nectar」、報酬モデル「Starling-RM-7B-alpha」、言語モデル「Starling-LM-7B-alpha」をHugging Faceで公開しており、LMSYS Chatbot Arenaでオンラインデモも提供しています。詳細な情報については、近日公開予定のコードと論文をご覧ください。
ウェブサイトを開く

Starling-7B 代替品