在最近的一次直播对话中,特斯拉和 SpaceX 首席执行官埃隆・马斯克表示,现实世界中可用于训练人工智能模型的数据已经几乎耗尽。与他进行对话的是 Stagwell 董事会主席马克・佩恩。马斯克提到,“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”马斯克的这一观点与前 OpenAI 首席科学家伊利亚・苏茨克弗在去年12月的 NeurIPS 会议上提出的 “数据峰值” 理论相似。苏茨克弗表示,AI 行业正面临数据短缺的挑战,未来缺乏足
深度学习的快速发展离不开规模化的数据集、模型和计算量。在自然语言处理和计算机视觉领域,研究人员已经发现了模型性能与数据规模之间存在幂律关系。然而,机器人领域,特别是机器人操控领域,尚未建立起类似的规模化规律。清华大学的研究团队最近发表了一篇论文,探讨了机器人模仿学习中的数据规模化规律,并提出了一种高效的数据收集策略,仅用一个下午的时间就收集了足够的数据,使得策略能够在新环境和新物体上实现约90% 的成功率。研究人员将泛化能力分为环境泛化
腾讯今日发布开源MOE大语言模型Hunyuan-large,总参数量达398B,激活参数量52B。公开测评结果显示,腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。据了解,该模型在技术创新上可实现高质量合成数据,通过使用合成数据增强训练,有效应对自然数据的不足。在上下文处理能力方面,预训练模型支持高达256K的文本序列,显著增强了处理长上下文任务的能力。同时,腾讯混元宣布,为填补行业
麻省理工学院(MIT)本周展示了一种全新的机器人训练模型,该模型放弃了以往专注于特定数据集的训练方法,转而采用类似大型语言模型(LLMs)训练时使用的海量信息。研究人员指出,模仿学习——即代理通过模仿执行任务的个体来学习——在遇到小的挑战时可能会失败。这些挑战可能包括不同的光照条件、不同的环境设置或新的障碍物。在这些情况下,机器人没有足够的数据来适应这些变化。图源备注:图片由AI生成,图片授权服务商Midjourney团队借鉴了像GPT-4这样的模型,采用了一种粗