慕尼黑大学、慕尼黑机器学习中心与Adobe Research近日联合发布的研究显示,包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在内的12款顶尖AI语言模型,在长文本概念推理任务中面临显著性能衰减。尽管这些模型均支持至少128,000个标记的上下文处理,但其深层逻辑关联能力仍存在根本性局限。 研究团队开发的NOLIMA(无文字匹配)基准测试系统,通过刻意规避关键词重复的设计,揭示AI模型在概念联结上的脆弱性。例如,当文本描述“Yuki住在Semperoper旁”时,模型需先理解“Semperoper位于德累斯顿”的常识
近日,Vectara 的机器学习团队对 DeepSeek 系列的两款模型进行了深入的幻觉测试,结果显示,DeepSeek-R1的幻觉率高达14.3%,显著高于其前身 DeepSeek-V3的3.9%。这表明,在增强推理的过程中,DeepSeek-R1产生了更多不准确或与原始信息不一致的内容。该结果引发了对推理增强大语言模型(LLM)产生幻觉率的广泛讨论。图源备注:图片由AI生成,图片授权服务商Midjourney研究团队指出,推理增强模型可能会比普通的大语言模型更容易产生幻觉。这一现象在 DeepSeek 系列与其他推理增强模型的比较中表现得尤
谷歌 X “月球计划工厂” 近日宣布了一项新创业公司 Heritable Agriculture 的独立发展。这个新公司致力于利用数据和机器学习技术来改进农作物的生长方式。Heritable Agriculture 在一份声明中提到,植物是高效且令人惊叹的系统:“植物是太阳能驱动的、碳负的自组装机器,依靠阳光和水生存。”然而,农业对地球和资源造成了巨大的压力,约占人类活动造成的温室气体排放的25%。农业是全球最大的地下水消费者,并且由于农药、化肥等化学品的使用,往往导致土壤侵蚀和水污染。作为一项全新
在近日于达沃斯举办的世界经济论坛上,谷歌 DeepMind 的首席执行官德米斯・哈萨比斯(Demis Hassabis)表示,人工智能帮助设计的首批药物可能将在2025年前开始临床试验。哈萨比斯也是 DeepMind 旗下药物研发公司 Isomorphic Labs 的负责人。他表示:“我们的计划是在今年年底前让一些 AI 设计的药物进入临床试验。”图源备注:图片由AI生成,图片授权服务商Midjourney自2021年以来,Isomorphic Labs 致力于利用机器学习加速药物开发。哈萨比斯提到,未来有望实现个性化医疗,AI 系统可以在短时间内为每