最新发表在《Cureus》杂志上的一项同行评审研究显示,OpenAI的GPT-4语言模型在未经任何额外训练的情况下,成功通过了日本国家物理治疗考试。
研究人员向GPT-4输入了1,000个问题,涵盖记忆、理解、应用、分析和评估等方面。结果显示,GPT-4总体上正确回答了73.4%的问题,通过了所有五个测试部分。然而,研究也揭示了AI在某些领域的局限性。
GPT-4在一般问题上表现出色,正确率达80.1%,但在实际问题上仅为46.6%。同样,它在处理纯文本问题(80.5%正确)方面远优于带有图片和表格的问题(35.4%正确)。这一发现与先前关于GPT-4视觉理解局限性的研究结果一致。
值得注意的是,问题难度和文本长度对GPT-4的性能影响不大。尽管该模型主要使用英语数据训练,但在处理日语输入时也表现良好。
研究人员指出,虽然这项研究展示了GPT-4在临床康复和医学教育方面的潜力,但仍需谨慎看待。他们强调,GPT-4并不能正确回答所有问题,未来还需要评估新版本以及该模型在书面和推理测试中的能力。
此外,研究人员提出,像GPT-4v这样的多模态模型可能在视觉理解方面带来进一步的改进。目前,谷歌的Med-PaLM2、Med-Gemini等专业医疗AI模型,以及Meta基于Llama3的医疗模型都在积极开发中,旨在在医疗任务中超越通用模型。
然而,专家们认为,医疗AI模型要广泛应用于实践可能还需要很长时间。当前模型的误差空间在医疗环境中仍然过大,需要在推理能力上取得显著进步,才能安全地将这些模型整合到日常医疗实践中。