北大和香港科技大学的团队搞了个大新闻,他们提出了一种训练方法,让8B尺寸的医疗专家模型达到了GPT-4级的性能。这可不是小打小闹,他们还引入了一个新概念——「稳定性差距」,来解释大语言模型在持续预训练过程中出现的一些现象。

AI医疗 医生 人工智能

图源备注:图片由AI生成,图片授权服务商Midjourney

首先,他们发现在持续预训练过程中,模型在目标领域的性能会先下降再上升,这就像是过山车一样刺激。为了解决这个问题,他们提出了三种策略。第一种是在适当大小的数据子集上进行多轮预训练,这样比单轮大数据集预训练能更快恢复性能。第二种是选取最高质量的子语料进行多轮预训练。最后,通过混合数据来接近预训练数据分布,这样可以让模型更稳定。

这些策略在医疗领域的持续预训练和指令精调中都取得了显著的效果,提升了效果的同时,还削减了计算量。而且,他们开源的Llama-3-Physician-8B模型已经在HuggingFace上可以找到。

这个研究的意义可不止于此。他们还发现,通过这些策略,OpenLLaMa模型只需要在高质量50亿数据上训练4个轮次,就能在医疗任务上显著超越所有基线。这不仅提升了性能,还大大减少了计算资源的消耗。

更厉害的是,他们的Llama-3-Physician-8B-insturct模型在医疗问答任务上的表现,不仅优于其他同尺寸的开源模型,甚至超过了闭源的GPT-3.5模型,接近GPT-4的水平。这简直就是医疗领域的一次革命。

这项研究不仅为我们提供了一种新的训练方法,还让我们看到了大语言模型在医疗领域的巨大潜力。通过持续预训练和指令微调,我们可以让模型在特定领域达到更高的性能,同时降低计算成本。这对于医疗行业来说,无疑是一个巨大的福音。

这项研究也提醒我们,大语言模型的训练不是一蹴而就的,而是需要不断地优化和调整。通过引入「稳定性差距」的概念,我们可以更好地理解和解决模型训练中的问题,让模型在特定领域发挥出更大的作用。这不仅是技术上的突破,更是对医疗行业的一次深刻洞察。

论文链接:https://arxiv.org/abs/2406.14833

开源地址:https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct