在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。
近日,谷歌 DeepMind 与机器人公司 Apptronik 宣布达成合作,计划共同开发能够在动态环境中运作的 AI 驱动人形机器人。该合作旨在将 Apptronik 的机器人硬件与谷歌 DeepMind 的人工智能技术相结合,打造可以在复杂环境中工作的机器人。Apptronik 成立于2016年,源自德克萨斯大学奥斯汀分校的人机中心机器人实验室,目前已开发出15种不同型号的机器人,其中包括 NASA 的 Valkyrie 机器人。此次合作的重点是 Apptronik 最新推出的 Apollo 机器人,身高1.73米,重量73公斤,专为工业环境设计,能够与人类协作
近日,微软 AI 研究团队发布了开源工具 PromptWizard,这是一种基于反馈驱动的 AI 框架,旨在高效优化大型语言模型(LLM)的提示设计。提示的质量对于模型输出的优劣至关重要,然而,创建高质量的提示往往需要耗费大量的时间和人力资源,尤其是在复杂或特定领域的任务中。传统的提示优化方法多依赖人工经验,这种方式不仅耗时,而且难以扩展。现有的优化技术分为连续和离散两种。连续技术如软提示需要大量的计算资源,而离散方法如 PromptBreeder 和 EvoPrompt 则通过生成多种提示变体
人工智能正在重塑传统科技领域,气象预测就是最新的见证。本周,谷歌DeepMind团队发布了一款名为GenCast的革命性人工智能天气预测模型,并在权威学术期刊《自然》上发表研究成果。这款AI模型的性能令人瞩目。研究人员通过对比发现,GenCast在准确性上超越了当前全球最顶尖的业务天气预报系统——欧洲中期天气预报中心(ECMWF)的ENS系统。通过对2018年之前的天气数据进行训练,GenCast在2019年的预测中以惊人的97.2%准确率完胜传统预测系统。与以往只提供单一天气预测路径的确定性模型不