人工知能の分野において、事後トレーニング技術はモデル性能向上のための重要な手段になりつつあります。最近、アレン人工知能研究所(AI2)は、Tülu3シリーズモデルを発表しました。これは、GPT-4o-miniなどのクローズドソースモデルに匹敵する性能を持つ、完全にオープンソースの高度な言語モデルです。Tülu3には、モデルデータ、コード、トレーニングレシピだけでなく、評価フレームワークも含まれており、オープンソースモデルの事後トレーニング技術の発展を促進することを目指しています。
従来、事前トレーニングのみを受けたモデルは、実際の応用ニーズを効果的に満たせないことが多く、有害または危険な情報を生成したり、人間の指示に従いにくい場合があります。そのため、指示微調整や人間のフィードバック学習などの事後トレーニング段階が非常に重要になります。しかし、事後トレーニングプロセスを最適化する方法、特に特定の能力を向上させながら他の能力に影響を与えない方法は、依然として技術的な課題となっています。
この課題を克服するために、多くの企業が事後トレーニング方法の複雑性を高め、多段階トレーニングや人工データと合成データの組み合わせを試みていますが、ほとんどの方法はまだクローズドソースです。これとは対照的に、Tülu3シリーズの発表は、オープンソースモデルとクローズドソースモデル間の性能ギャップを突破し、全く新しいトレーニングの考え方を提示しました。
Tülu3のトレーニングプロセスは、データ構築、教師あり微調整、選好調整、検証可能な報酬による強化学習の4つの段階に分かれています。
まず、研究者はモデルの中核スキルに焦点を当て、人工データと合成データの組み合わせによってトレーニングデータを作成します。
次に、教師あり微調整を行い、特定のスキルにおけるモデルの性能が他の高度なモデルに劣らないようにします。
第三に、直接選好最適化の方法を採用して、モデルの全体的な性能をさらに向上させます。
最後に、検証可能な報酬による強化学習という革新的な手法を導入することで、モデルが検証可能な結果のタスクをより適切に実行できるようにします。
Tülu3モデルはLlama3.1をベースに構築されており、推論、数学、プログラミング、指示遵守などの分野で優れた性能を発揮します。他のオープンソースモデルやクローズドソースモデルと比較して、Tülu3の総合能力は複数のベンチマークテストで優れた結果を示しており、オープンソース事後トレーニング技術における大きな進歩を示しています。
論文リンク:https://allenai.org/papers/tulu-3-report.pdf
デモ:https://playground.allenai.org/
要点:
🌟 Tülu3はAI2が発表したオープンソース言語モデルで、GPT-4o-miniなどのクローズドソースモデルと同等の性能を持っています。
🔧 事後トレーニング技術は非常に重要であり、モデルの実際の応用における性能を効果的に向上させることができます。
📊 Tülu3のトレーニングプロセスは革新的で、データ構築、教師あり微調整、選好調整、検証可能な報酬による強化学習の4つの段階に分かれています。