随着企业越来越多地应用大型语言模型(LLMs),如何提升模型的知识准确性并减少幻觉现象,成为了一项重要挑战。Meta AI 的研究人员在一篇新论文中提出了 “可扩展记忆层”,或许能够为这一问题提供解决方案。可扩展记忆层的核心思想是在不增加推理时计算资源的情况下,向 LLMs 中添加更多参数,从而提升其学习能力。这种架构适用于需要储存大量事实知识但又希望保持推理速度的应用场景。传统的语言模型使用 “密集层” 来编码大量信息。在密集层中,所有参数在推理时几乎都是
香港中文大学(深圳)与深圳大数据研究院的研究团队近日联合发布了一款名为HuatuoGPT-o1的医疗大型语言模型(LLM)。这款模型专为医疗领域的复杂推理而设计,旨在提高医疗诊断和决策的可靠性。与以往侧重于数学推理的LLM不同,HuatuoGPT-o1专注于医疗这一特殊领域,通过模拟医生在实际工作中严谨的思考过程,为医疗AI的发展开辟了新的道路。该研究团队认识到,医疗领域的推理过程往往缺乏明确的步骤,难以验证。为了解决这一难题,他们从医疗考试题库中精选出4万道具有唯一、客观正
近年来,训练大型语言模型(LLM)变得越来越昂贵且复杂,只有少数大型科技公司具备相应的计算资源。不过,谷歌最近推出了一种名为 SALT(小模型辅助大模型训练)的新方法,这一创新可能会彻底改变 AI 训练的格局。图源备注:图片由AI生成,图片授权服务商Midjourney根据谷歌研究和 DeepMind 的最新研究论文,“一点帮助就能走得更远:通过利用小型语言模型实现高效的 LLM 训练”,SALT 引入了一种新的两阶段训练过程。这种方法不仅高效,而且更具实用性,改变了我们以往的训练方式。SALT 的
随着用户体验的提升和留存率的增强,推荐系统在电商、流媒体和社交媒体等多个行业中愈发受到重视。这些系统需要分析用户、商品及其背景因素之间的复杂关系,以精准地推荐用户可能感兴趣的内容。然而,现有的推荐系统往往是静态的,依赖于大量历史数据来有效地构建这些关系。在 “冷启动” 场景下,这种关系的构建几乎变得不可能,进一步削弱了系统的效果。为了解决这些问题,来自上海交通大学和华为诺亚方舟实验室的研究人员推出了 AutoGraph 框架。该框架能够自动构建图,