Self-Rewarding Language Models

语言模型自我奖励训练

普通产品生产力语言模型自我奖励
本产品是一种自奖励语言模型,通过 LLM 作为裁判,使用模型自身提供的奖励信号进行训练。通过迭代的 DPO 训练,模型不仅可以提高遵循指令的能力,还能提供高质量的自我奖励。经过三次迭代的 Fine-tuning,本产品在 AlpacaEval 2.0 排行榜上超过了许多现有系统,包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项工作虽然只是初步研究,但为模型在两个方面持续改进的可能性打开了大门。
打开网站

Self-Rewarding Language Models 最新流量情况

月总访问量

29742941

跳出率

44.20%

平均页面访问数

5.9

平均访问时长

00:04:44

Self-Rewarding Language Models 访问量趋势

Self-Rewarding Language Models 访问地理位置分布

Self-Rewarding Language Models 流量来源

Self-Rewarding Language Models 替代品