査読済み研究が「Cureus」誌に掲載され、OpenAIのGPT-4言語モデルが追加トレーニングなしで日本の国家理学療法士試験に合格したことが明らかになりました。
研究者らは、記憶、理解、応用、分析、評価といった側面を網羅した1000問の問題をGPT-4に入力しました。その結果、GPT-4は全体で73.4%の問題に正答し、5つの試験セクション全てに合格しました。しかし、この研究はAIの限界も明らかにしています。
GPT-4は一般的な問題では80.1%の高い正答率を示しましたが、実践的な問題では46.6%にとどまりました。同様に、純粋なテキスト問題(80.5%正答)の方が、画像や表を含む問題(35.4%正答)よりもはるかに高い正解率でした。この発見は、GPT-4の視覚理解の限界に関する以前の研究結果と一致しています。
注目すべきは、問題の難易度やテキストの長さがGPT-4のパフォーマンスに大きな影響を与えなかったことです。このモデルは主に英語データでトレーニングされていますが、日本語入力に対しても良好な結果を示しました。
研究者らは、この研究が臨床リハビリと医学教育におけるGPT-4の可能性を示しているものの、慎重な見解が必要であると指摘しています。GPT-4が全ての問題に正答するわけではないことを強調し、今後の研究では、新バージョンの評価や、記述式試験や推論テストにおける能力の評価が必要であるとしています。
さらに、研究者らは、GPT-4vのようなマルチモーダルモデルが視覚理解の面で更なる改善をもたらす可能性があると述べています。現在、GoogleのMed-PaLM2、Med-Geminiなどの専門的な医療AIモデルや、MetaがLlama3に基づいて開発している医療モデルなど、汎用モデルを超えることを目指した医療タスク向けのモデルが積極的に開発されています。
しかし、専門家らは、医療AIモデルが広く実践に応用されるまでには、まだ長い時間がかかると考えています。現在のモデルの誤差範囲は医療現場では依然として大きすぎ、安全に日常医療にこれらのモデルを統合するには、推論能力の著しい向上が必要です。