香港中文大学(深圳)と深圳大データ研究院の研究チームは最近、HuatuoGPT-o1という医療向けの大規模言語モデル(LLM)を発表しました。このモデルは、医療分野における複雑な推論のために設計されており、医療診断と意思決定の信頼性を向上させることを目的としています。従来の数学的推論に重点を置いたLLMとは異なり、HuatuoGPT-o1は医療という特定の分野に焦点を当て、医師が実際の業務で厳密な思考プロセスを行うことをシミュレートすることで、医療AIの発展に新たな道を切り開きます。
研究チームは、医療分野の推論プロセスには明確な手順が不足していることが多く、検証が難しいことに気づきました。この問題を解決するために、彼らは医療試験問題集から、唯一で客観的に正しい答えを持つ4万問の難問を選び出し、それをオープンエンドの質問に変換して、検証可能な医療問題セットを構築しました。これらの問題は、モデルに深い推論を要求するだけでなく、答えの正誤によって推論プロセスの正確性を検証することもできます。
研究チームは、モデルの推論能力を向上させるために、二段階の訓練方法を採用しました。第一段階では、検証器のフィードバック(正誤)を利用して、モデルが戦略に基づいた探索を行い、複雑な推論軌跡を生成します。モデルはまず思考連鎖(CoT)を初期化し、検証器が現在のCoTが間違っていると判断した場合、モデルは、正しい答えが見つかるまで、遡行、新たな経路の探索、検証、修正などの戦略を試みます。これらの成功した推論軌跡はその後、LLMを微調整するために使用され、反復的な省察を伴う複雑な推論能力を備えます。第二段階では、検証器が提供する疎な報酬を利用して、強化学習(RL)アルゴリズムによって、モデルの複雑な推論能力をさらに向上させます。
実験結果によると、この方法では、検証可能な4万問の問題のみを使用して、80億パラメーターのモデルの医療ベンチマークテストでのスコアを8.5ポイント向上させることができました。また、700億パラメーターのモデルは、複数の医療ベンチマークテストで、他のオープンソースの汎用および医療専用のLLMを上回りました。これらの結果は、複雑な推論が医療問題解決の有効性、そして強化学習がモデル性能向上に著しい効果を持つことを証明しています。
HuatuoGPT-o1の革新的な点は、検証可能な医療問題と医療検証器を使用して、LLMの医療における複雑な推論能力を初めて向上させたことです。この方法により、モデルは医師のように深く思考し、答えを出す前に自己検査と修正を行うことができます。これは、医療分野におけるモデルの応用可能性を高めるだけでなく、他の専門分野の推論能力向上にも参考となるものです。
モデルの信頼性を検証するために、研究者たちはGPT-4oを検証器として使用し、その結果、第一段階の正確性は96.5%、第二段階の正確性は94.5%に達することが示されました。同時に、彼らは、LLMベースの検証器が従来の完全一致法よりも信頼性が高いことも確認しました。さらに、研究者たちは、この方法を中国語の医療分野にも適用し、同様の顕著な成果を収め、この方法が異なる分野や言語環境での適応性を証明しました。
総じて、HuatuoGPT-o1の登場は、医療AIが複雑な推論において大きな進歩を遂げたことを示しています。これは、医療診断と意思決定により信頼性の高いツールを提供するだけでなく、将来のAIが他の専門分野で応用されるための新たなアイデアも提供します。このモデルはまだ研究段階にあり、臨床に直接適用することはできませんが、その大きな可能性は広く注目を集めています。
論文アドレス:https://arxiv.org/pdf/2412.18925