ChatGPT医疗诊断能力遭质疑：研究揭示高达50%错误率

尽管人工智能在医疗领域取得了令人瞩目的进展，但一项新的研究表明，通用型AI如ChatGPT在复杂医疗诊断方面仍存在显著缺陷。

加拿大安大略省西部大学的医学教育家Amrit Kirpalani领导的研究团队发现，ChatGPT在诊断150个来自Medscape的复杂医疗案例中，有76个出现错误，错误率超过50%。

这项研究采用了Medscape的问题库，这些案例比美国医师执照考试（USMLE）更接近真实医疗情况，包含多种并发症和诊断难题。研究团队通过巧妙的提示设计，绕过了OpenAI对ChatGPT用于医疗建议的禁令。

AI 医疗 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

Kirpalani指出，ChatGPT的表现不佳主要归因于两个因素:首先，与专门的医疗AI相比，ChatGPT缺乏深厚的医学领域专业知识;其次，ChatGPT在处理医学"灰色地带"时表现欠佳，无法像人类医生那样灵活解读轻微异常的检查结果。

更令人担忧的是，即使在给出错误诊断时，ChatGPT也能提供看似合理且有说服力的解释。这种特性可能会误导非专业人士，增加错误信息传播的风险。

尽管如此，AI在医疗领域仍有其价值。研究合著者Edward Tran表示，ChatGPT已成为医学院教育中的重要工具，帮助学生整理笔记、澄清诊断算法和备考。然而，Kirpalani强烈建议公众不要使用ChatGPT寻求医疗建议，而应继续咨询专业医疗保健提供者。

Kirpalani认为，构建可靠的AI医生需要大量临床数据训练和严格监督。在短期内，AI更可能被用来增强人类医生的工作，而非完全取代他们。随着技术的不断进步，AI在医疗领域的应用仍将是一个值得关注的话题。

AI新闻资讯