人工知能は医療分野で目覚ましい進歩を遂げていますが、新たな研究によると、ChatGPTのような汎用型AIは複雑な医療診断において依然として大きな欠陥を抱えていることが示されました。
カナダ西部大学医学教育者のAmrit Kirpalani氏率いる研究チームは、Medscapeの複雑な医療事例150件をChatGPTで診断させたところ、76件で誤診しており、誤診率は50%を超えることを発見しました。
この研究では、米国の医師免許試験(USMLE)よりも実際の医療状況に近い、複数の合併症や診断困難なケースを含むMedscapeの問題集を使用しました。研究チームは巧妙なプロンプト設計により、OpenAIがChatGPTの医療アドバイスへの利用を禁止していることを回避しました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
Kirpalani氏によると、ChatGPTの性能が低い主な理由は2つあります。1つは、専門的な医療AIと比較して、ChatGPTは医学分野の専門知識が不足していること。もう1つは、医学における「グレーゾーン」の処理が苦手であり、わずかな異常検査結果を人間医師のように柔軟に解釈できないことです。
さらに懸念されるのは、誤診した場合でも、ChatGPTは一見合理的で説得力のある説明を提供できることです。この特性は専門家以外を誤解させる可能性があり、誤情報の拡散リスクを高めます。
それでも、AIは医療分野で依然としてその価値を持っています。研究の共著者であるEdward Tran氏は、ChatGPTは医学生教育において重要なツールとなり、学生がノートを整理したり、診断アルゴリズムを明確にしたり、試験勉強に役立っていると述べています。しかし、Kirpalani氏は、ChatGPTを使って医療相談をするべきではなく、引き続き専門の医療従事者に相談するよう強く勧めています。
Kirpalani氏は、信頼できるAI医師を構築するには、大量の臨床データによるトレーニングと厳格な監視が必要だと考えています。短期的に見ると、AIは人間医師を完全に置き換えるのではなく、人間医師の仕事を強化するツールとして利用される可能性が高いでしょう。技術の進歩に伴い、AIの医療分野における応用は引き続き注目すべき話題です。