自己報酬型言語モデル
言語モデルによる自己報酬学習
一般製品生産性言語モデル自己報酬
本製品は、LLMを判定役として用い、モデル自身が出力する報酬信号を用いて学習する自己報酬型言語モデルです。反復的なDPO学習により、指示への従順性の向上に加え、高品質な自己報酬の生成も実現します。3回のファインチューニングを経て、AlpacaEval 2.0ランキングで、Claude 2、Gemini Pro、GPT-4 0613など多くの既存システムを上回る成果を達成しました。本研究はまだ初期段階ではありますが、モデルの継続的な改善の可能性を2つの面から示唆しています。
自己報酬型言語モデル 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44