最近の研究で、大規模言語モデル(LLM)のパフォーマンスを検索機能で大幅に向上できることが示され、大きな注目を集めています。特に、パラメータ数がわずか8億のLlama 3.1モデルは、100回の検索を行うことで、Pythonコード生成タスクにおいてGPT-4oと同等の性能を達成しました。

この考え方は、強化学習の第一人者であるRich Suttonが2019年に発表した古典的なブログ記事「The Bitter Lesson」を彷彿とさせます。彼は、計算能力の向上に伴い、汎用的な手法の威力を認識する必要があると述べており、「検索」と「学習」という2つの手法は、継続的に拡張できる優れた選択肢であると示唆しています。

image.png

Suttonは学習の重要性、つまりより大きなモデルはより多くの知識を学習できることを強調していますが、推論過程における検索の潜在能力はしばしば見過ごされてきました。最近、スタンフォード大学、オックスフォード大学、DeepMindの研究者たちは、推論段階での反復サンプリング回数を増やすことで、数学、推論、コード生成などの分野におけるモデルのパフォーマンスを大幅に向上できることを発見しました。

これらの研究に触発された2人のエンジニアは、実験を行いました。彼らは、100個の小型Llamaモデルを用いた検索によって、PythonプログラミングタスクにおいてGPT-4oを凌駕、あるいは同等の性能を達成できることを発見しました。「以前は、ある能力を実現するには大型の馬が必要だったが、今では100羽の小さなアヒルで同じことができるようになった」という鮮やかな比喩を用いて、その成果を表現しています。

より高いパフォーマンスを実現するために、彼らはvLLMライブラリを用いてバッチ推論を行い、10台のA100-40GB GPU上で実行することで、驚異的な40kトークン/秒の出力速度を達成しました。生成されたコードを実行して評価できるHumanEvalベンチマークを選択することで、より客観的で正確な評価を行いました。

image.png

報告によると、ゼロショット推論において、GPT-4oのpass@1スコアは90.2%でした。一方、上記の方法を用いたLlama 3.18Bのpass@kスコアは大幅に向上しました。反復サンプリング回数が100回の場合、Llamaのスコアは90.5%に達し、反復サンプリング回数を1000回に増やすと、スコアはさらに95.1%に上昇し、GPT-4oを明らかに上回りました。

注目すべきは、この実験は元の研究の厳密な再現ではないものの、推論段階で検索手法を用いることで、より小さなモデルでも、予測可能な範囲内で大規模モデルを凌駕する可能性があることを示唆している点です。

検索が強力である理由は、計算量の増加に伴って「透過的」に拡張でき、リソースをメモリから計算に移すことでリソースのバランスを実現できる点にあります。最近、DeepMindは数学分野で重要な進歩を遂げ、検索の力を証明しました。

しかし、検索の成功には、まず結果の高品質な評価が必要です。DeepMindのモデルは、自然言語で表現された数学の問題を形式的な表現に変換することで、効果的な監督を実現しました。一方、「メールを要約する」などのオープンエンドのNLPタスクでは、効果的な検索を行う難易度がはるかに高くなります。

この研究は、生成モデルの特定分野におけるパフォーマンス向上は、その評価能力と検索能力と密接に関連していることを示しており、今後の研究では、これらの能力を向上させるための再現可能なデジタル環境の探求が期待されます。

論文アドレス:https://arxiv.org/pdf/2407.21787