北京大学と香港科技大学のチームが大きなニュースを発表しました。彼らは、80億パラメータの医療専門家モデルをGPT-4レベルの性能に到達させるトレーニング方法を開発したのです。これは小さな成果ではありません。彼らはさらに、「安定性ギャップ」という新しい概念を導入し、大規模言語モデルが継続的プリトレーニング中に発生するいくつかの現象を説明しています。
画像出典:AI生成画像、画像ライセンスプロバイダーMidjourney
まず、彼らは継続的プリトレーニング中に、モデルの目標領域における性能が最初に低下してから上昇することを発見しました。これはまるでジェットコースターのようです。この問題を解決するために、彼らは3つの戦略を提案しました。1つ目は、適切なサイズのデータサブセットで複数回のプリトレーニングを行うことで、単一の大きなデータセットでのプリトレーニングよりも性能を早く回復できることです。2つ目は、最高品質のサブコーパスを選択して複数回のプリトレーニングを行うことです。最後に、混合データを使用してプリトレーニングデータ分布に近づけることで、モデルをより安定させることができます。
これらの戦略は、医療分野における継続的プリトレーニングと指示微調整の両方で顕著な効果を上げ、効果を高めると同時に計算量を削減しました。さらに、彼らがオープンソース化したLlama-3-Physician-8Bモデルは、HuggingFaceで入手可能です。
この研究の意義はそれだけではありません。彼らはまた、これらの戦略により、OpenLLaMaモデルは高品質な50億データで4回トレーニングするだけで、医療タスクにおいてすべてのベースラインを大幅に上回ることができることを発見しました。これは性能の向上だけでなく、計算資源の消費の大幅な削減にもつながります。
さらに素晴らしいことに、彼らのLlama-3-Physician-8B-insturctモデルは、医療に関する質問応答タスクにおいて、他の同規模のオープンソースモデルだけでなく、クローズドソースのGPT-3.5モデルをも上回り、GPT-4レベルに近づいています。これは医療分野における革命と言えるでしょう。
この研究は、私たちに新しいトレーニング方法を提供するだけでなく、大規模言語モデルが医療分野に持つ巨大な可能性を示しています。継続的プリトレーニングと指示微調整を通じて、特定の分野でモデルの性能を高めながら、計算コストを削減することができます。これは医療業界にとって、間違いなく大きな朗報です。
この研究はまた、大規模言語モデルのトレーニングが一度で完了するものではなく、継続的な最適化と調整が必要であることを思い出させてくれます。「安定性ギャップ」という概念を導入することで、モデルトレーニングにおける問題をより良く理解し、解決し、特定の分野でモデルを最大限に活用することができます。これは技術的なブレークスルーであるだけでなく、医療業界に対する深い洞察でもあります。
論文リンク: https://arxiv.org/abs/2406.14833
オープンソースアドレス: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct