MimicGen：合成数据助力AI模仿学习

新智元

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月30号 9:10

最新研究展示MimicGen系统，通过数字孪生技术在模拟环境中生成大规模机器人训练数据。仅用不到200个人类演示，自主生成5万个训练数据，覆盖18个任务。这一方法将合成数据和模拟应用于AI发展，提供近乎无限的训练数据，对机器人领域和其他AI领域具有重要意义。

英伟达与卡内基梅隆大学推出新框架ASAP，提升机器人训练精准度

在机器人技术的发展中，模拟环境与现实世界之间的差距一直是一个重大挑战。近日，英伟达 GEAR 实验室与卡内基梅隆大学的研究团队联合开发了一种新框架，名为 ASAP（Aligning Simulation and Real Physics），旨在缩小这种差距。该系统在减少机器人模拟与现实运动误差方面取得了显著进展，能够降低约53% 的运动误差，相较于现有方法具有明显优势。ASAP 框架的工作流程分为两个阶段。首先，机器人在虚拟环境中进行训练，随后利用一种特殊模型来处理现实世界中的差异。这个模型能够学习并调

马斯克警告：现实可用于训练 AI 的数据几乎耗尽

在最近的一次直播对话中，特斯拉和 SpaceX 首席执行官埃隆・马斯克表示，现实世界中可用于训练人工智能模型的数据已经几乎耗尽。与他进行对话的是 Stagwell 董事会主席马克・佩恩。马斯克提到，“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”马斯克的这一观点与前 OpenAI 首席科学家伊利亚・苏茨克弗在去年12月的 NeurIPS 会议上提出的 “数据峰值” 理论相似。苏茨克弗表示，AI 行业正面临数据短缺的挑战，未来缺乏足

想让机器人更智能？清华团队发现机器人学习速成秘诀

深度学习的快速发展离不开规模化的数据集、模型和计算量。在自然语言处理和计算机视觉领域，研究人员已经发现了模型性能与数据规模之间存在幂律关系。然而，机器人领域，特别是机器人操控领域，尚未建立起类似的规模化规律。清华大学的研究团队最近发表了一篇论文，探讨了机器人模仿学习中的数据规模化规律，并提出了一种高效的数据收集策略，仅用一个下午的时间就收集了足够的数据，使得策略能够在新环境和新物体上实现约90% 的成功率。研究人员将泛化能力分为环境泛化

腾讯开源大语言模型Hunyuan-large，支持高达256K文本序列

腾讯今日发布开源MOE大语言模型Hunyuan-large，总参数量达398B，激活参数量52B。公开测评结果显示，腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先，超过Llama3.1、Mixtral等一流的开源大模型。据了解，该模型在技术创新上可实现高质量合成数据，通过使用合成数据增强训练，有效应对自然数据的不足。在上下文处理能力方面，预训练模型支持高达256K的文本序列，显著增强了处理长上下文任务的能力。同时，腾讯混元宣布，为填补行业

AI新闻资讯

MimicGen：合成数据助力AI模仿学习

新智元

相关AI新闻推荐

英伟达与卡内基梅隆大学推出新框架ASAP，提升机器人训练精准度

​马斯克警告：现实可用于训练 AI 的数据几乎耗尽

想让机器人更智能？清华团队发现机器人学习速成秘诀

腾讯开源大语言模型Hunyuan-large，支持高达256K文本序列

马斯克警告：现实可用于训练 AI 的数据几乎耗尽