近日,谷歌宣布推出新的开源 AI 模型 DataGemma,旨在解决大语言模型(LLM)在处理统计数据时常出现的 “幻觉” 问题

这种幻觉现象让模型在回答有关数字和统计的问题时,可能会提供不准确的答案。DataGemma 模型的推出,标志着谷歌在 AI 领域的一次重要进展。

问卷调查,数据报告

图源备注:图片由AI生成,图片授权服务商Midjourney

减少统计查询时的幻觉

DataGemma 由两种不同的方法构成,旨在提升回答用户问题时的准确性。这些模型基于谷歌的数据共享平台 Data Commons 的海量真实世界数据,后者拥有超过2400亿个数据点,涵盖经济、科学、健康等多个领域的信息。这为模型提供了扎实的事实基础。

这两个新模型都可以在 Hugging Face 上用于学术和研究用途,它们都建立在现有的 Gemma 系列开放模型之上,并使用来自 Google 创建的 Data Commons 平台的大量真实数据来为他们的答案奠定基础。该公共平台提供了一个开放的知识图谱,其中包含超过2400亿个数据点,这些数据点来自经济、科学、卫生和其他领域的可信组织。

模型入口:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

谷歌的研究人员表示,他们针对模型幻觉现象进行了多方面的探索,试图找出造成这一问题的原因。传统的模型有时在处理逻辑和算术问题时效果不佳,且公共统计数据往往格式多样,背景信息复杂,因此理解起来比较困难。

为了解决这些问题,谷歌的研究人员结合了两种新方法。第一种叫做 “检索交叉生成”(RIG),它通过对比模型生成的答案和 Data Commons 中的相关统计信息来提高准确性。为此,微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后,多模型后处理管道会将其转换为结构化数据查询,并运行它以从 Data Commons 中检索相关的统计答案,并返回或更正 LLM 生成,并带有相关引文。

第二种叫做 “检索增强生成”(RAG),它允许模型根据原始统计问题提取相关变量,并构建自然语言查询,再通过 Data Commons 获取相关数据。在这种情况下,微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后,对数据库运行查询以获取相关的统计信息/表。提取值后,它们与原始用户查询一起用于提示长上下文 LLM(在本例中为 Gemini1.5Pro)以高准确度生成最终答案。

显著提高准确率

初步测试中,使用 RIG 方法的 DataGemma 模型,能够将基线模型的事实准确性从5-17% 提高到约58%。而 RAG 方法的效果虽然略逊一筹,但仍然优于基线模型。

数据表明,DataGemma 能准确回答24-29% 的统计问题,且在数字准确性方面高达99%,但在推导出正确结论时仍存在6到20% 的错误率。

谷歌希望通过 DataGemma 的发布,进一步推动相关研究,并为未来的 Gemma 和 Gemini 模型打下更坚实的基础。谷歌的研究将持续进行,期待在经过严格测试后,将这些改进功能整合到更多的模型中。

划重点:

🌟 谷歌推出 DataGemma 模型,旨在减少 AI 在统计查询中的错误。

📊 DataGemma 利用谷歌的数据共享平台,增强模型回答的准确性。

🔍 初步测试表明,DataGemma 在统计查询的准确性上有显著提升。