Starling-7B
Melhora a usabilidade e a segurança de LLMs
Produto ComumChatModelo de LinguagemAprendizado por Reforço
Starling-7B é um grande modelo de linguagem (LLM) aberto treinado com aprendizado por reforço a partir de feedback de IA (RLAIF). Ele se beneficia de nosso novo conjunto de dados de classificação de tokens GPT-4, Nectar, e de novos processos de treinamento de recompensa e ajuste de políticas. O Starling-7B obteve uma pontuação de 8,09 no MT Bench usando o GPT-4 como juiz, superando todos os modelos atuais no MT-Bench, exceto o GPT-4 e o GPT-4 Turbo da OpenAI. Publicamos no HuggingFace o conjunto de dados de classificação Nectar, o modelo de recompensa Starling-RM-7B-alpha e o modelo de linguagem Starling-LM-7B-alpha, além de uma demonstração online na LMSYS Chatbot Arena. Aguarde a publicação em breve do nosso código e artigo, que fornecerão mais detalhes sobre todo o processo.