近期,康奈尔大学等机构的研究人员对包括GPT-4o、Claude和Gemini在内的多个生成式AI模型进行了幻觉基准测试。研究发现,即使是最先进的模型也只有约35%的时间能生成无幻觉文本,表明AI可靠性仍有待提高。

研究者通过法律、健康、历史等主题的权威来源进行事实核查,设计了一套包含维基百科未涵盖内容的问题集。结果显示,OpenAI的模型整体表现最佳,但与旧版GPT-3.5相比进步有限。有趣的是,模型大小并不决定幻觉频率,较小模型如Claude3Haiku与较大模型表现相当。

AI 人工智能 机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

研究合著者赵文婷指出,即使是能在线搜索的模型也难以解决"非Wiki"问题,反映了维基百科对模型影响深远。她预计幻觉问题将"持续很长时间",部分原因在于训练数据本身可能包含错误信息。

一个暂时解决方案是增加模型的拒答频率。Claude3Haiku通过仅回答72%的问题,成为最"诚实"的模型。然而,这种策略可能影响用户体验。

赵建议,彻底消除幻觉可能不现实,但可通过人为事实核查、提供引用等方式减轻问题。她呼吁制定相关政策,确保人类专家参与验证AI生成信息的过程。