扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 18, 2024

177

强化学习在近年来取得了许多成功，但其样本效率低下，限制了其在现实世界中的应用。世界模型作为一种环境生成模型，为解决这一问题提供了希望。它可以作为模拟环境，以更高的样本效率训练强化学习智能体。

目前，大多数世界模型通过离散潜变量序列来模拟环境动态。然而，这种压缩成紧凑离散表示的方法可能会忽略对强化学习至关重要的视觉细节。

与此同时，扩散模型已经成为图像生成领域的主导方法，挑战了传统的离散潜变量建模方法。受此启发，研究人员提出了一种名为DIAMOND（环境梦境扩散模型）的新方法，它是一种在扩散世界模型中训练的强化学习智能体。DIAMOND在设计上做出了关键选择，以确保扩散模型在长时间范围内的高效性和稳定性。

DIAMOND在著名的Atari100k基准测试中取得了1.46的平均人类标准化得分，这是完全在世界模型中训练的智能体的最佳成绩。此外，在图像空间中操作的优势在于，扩散世界模型可以直接替代环境，从而更好地理解世界模型和智能体的行为。研究人员发现，某些游戏性能的提升源于对关键视觉细节的更好建模。

DIAMOND的成功得益于EDM（Elucidating the Design Space of Diffusion-based Generative Models）框架的选择。与传统的DDPM(Denoising Diffusion Probabilistic Models)相比，EDM在较少的去噪步骤下表现出更高的稳定性，避免了模型在长时间范围内出现严重的累积误差。

此外，DIAMOND还展示了其扩散世界模型可以作为交互式神经游戏引擎的能力。通过在87小时的静态《反恐精英:全球攻势》游戏数据上进行训练，DIAMOND成功生成了一个可交互的Dust II地图神经游戏引擎。

未来，DIAMOND可以通过整合更先进的记忆机制，例如自回归Transformer，来进一步提升其性能。此外，将奖励/终止预测整合到扩散模型中也是一个值得探索的方向。

论文地址：https://arxiv.org/pdf/2405.12399

强化学习世界模型 DIAMOND 扩散模型

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

「6月30日AI日报」百度开源文心大模型4.5系列；通义千问多模态生成模型Qwen VLo

欢迎来到AIbase【AI日报】栏目!每天三分钟了解当日AI大事件，助你洞悉AI行业趋势、创新AI产品应用。更多AI资讯访问:https://www.aibase.com/zh1.百度重磅开源文心大模型4.5系列，十款新模型亮相!百度正式发布文心大模型4.5系列并完全开源，包含多种参数配置的十款新模型，使用飞桨框架训练推理，FLOPs利用率47%，在文本多模态基准测试中表现优异，提供一站式使用指南和工具，方便开发者精调部署，已上传至Hugging Face、GitHub等平台。体验地址:https://yiyan.baidu.com Hugging Face:https://huggingface.co/baidu）Gi

2025年6月30号 16:33

1.8k

新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

近日，北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。与2024年发布的第一代 OmniGen 相比，OmniGen2采用了两条独立的解码路径:一条用于文本生成，另一条用于图像生成，且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时，有效地提升了多模态语言模型的表现。OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型（MLLM）。在图像生成方面，该系统使用了一种自定义的扩

2025年6月30号 14:54

1.3k

百度重磅开源文心大模型 4.5 系列，国内大模型市场再掀波澜！

近日，百度正式宣布开源其文心大模型4.5系列，共推出了十款模型，包括47B、3B 激活参数的混合专家（MoE）模型，以及0.3B 参数的稠密型模型。此次开源不仅实现了预训练权重的完整公开，还提供了推理代码，标志着百度在大模型领域的重大进展。这些新发布的模型可以在飞桨星河社区、Hugging Face 等平台上下载和部署，同时，百度智能云千帆大模型平台也提供了相应的 API 服务。这一举措使百度成为国内继腾讯、阿里、字节跳动之后，又一家积极参与开源的科技巨头，表明其在大模型应用

2025年6月30号 14:23

1.0k

百度重磅开源文心大模型 4.5 系列，十款新模型亮相！

百度正式发布了文心大模型4.5系列模型，并且将其完全开源。用户可以通过文心一言（https://yiyan.baidu.com）立即体验这一最新的开源技术。这一系列模型涵盖了多种参数配置，包括激活参数为47B 和3B 的混合专家（MoE）模型，以及稠密型模型0.3B 参数的设计，合计达到了十款不同的模型。在训练和推理方面，文心4.5系列模型使用了飞桨深度学习框架，达到47% 的模型 FLOPs 利用率。实验结果显示，该系列模型在多项文本和多模态基准测试中表现优异，尤其是在指令遵循、世界知识记忆、视觉理

2025年6月30号 11:21

1.1k

Gemini2.5Pro API 免费回归，开发者社区热烈响应

近日，谷歌宣布其旗舰AI模型Gemini2.5Pro的API重新纳入Google AI Studio的免费层级，这一消息引发了开发者社区的广泛关注和热烈讨论。根据AIbase报道，这一举措标志着谷歌在AI技术普及化方面的又一重要进展，为开发者提供了更低门槛的创新机会。Gemini2.5Pro作为谷歌迄今为止最先进的AI模型，以其卓越的多模态能力和强大的推理性能而闻名。该模型支持高达100万token的上下文窗口，能够处理文本、图像、音频和视频等多种输入类型，在编码、复杂推理和数据分析等任务中表现尤为突出。此前，谷

2025年6月30号 10:41

3.0k

百度文心系列大模型在飞桨平台开源，涵盖多款最新模型

百度旗下文心系列大模型近日已在其飞桨（PaddlePaddle）平台开源，其中包括 ERNIE-4.5-VL-424B-A47B-Paddle 和 ERNIE-4.5-300B-A47B-Paddle 等数十款最新模型。尽管百度方面尚未主动披露此次开源行动，但飞桨平台的更新信息显示，这一系列动作集中在6月29日至6月30日，是其最新的举措。有内部人士证实:“官网上新并公布了开源代码，足见公司确实已在推进开源举措。”此次开源，将使更多开发者和研究者能够利用百度文心系列大模型的强大能力，推动人工智能技术的发展和应用。

2025年6月30号 10:24

1.5k

显存优化！英伟达 DLSS 4 让游戏更流畅，Transformer 模型显存减少 20%

在游戏性能日益提升的今天，英伟达再次引领了显卡技术的潮流。最新发布的 DLSS4SDK，不仅正式上线，还在显存（VRAM）的使用上进行了重大优化，让玩家们在享受高质量游戏画面的同时，显卡的负担也大大减轻。根据相关报道，英伟达在最新的 DLSS310.3.0版本中，对 Transformer 模型的显存占用进行了20% 的优化。之前，DLSS 的 Transformer 模型在显存使用上几乎是传统 CNN 模型的两倍，这让不少玩家在高分辨率游戏时感到压力。然而，经过优化后，Transformer 模型的显存占用仅比 CNN 模型多出40%。在1

2025年6月30号 10:10

1.4k

阿里Ovis-U1震撼发布：多模态AI三合一，开源赋能全球开发者

2025年6月29日，阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**，标志着其在多模态人工智能领域的又一重大突破。作为Ovis系列的最新力作，Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体，展现了强大的跨模态处理能力，为开发者、研究者和行业应用提供了全新的可能性。以下是AIbase对Ovis-U1的详细报道。Ovis-U1:三合一的多模态统一框架Ovis-U1是阿里巴巴国际AI团队基于Ovis系列架构打造的3亿参数模型，首次实现了多模态理解、文生图像和图像编辑的统一。据AIbase了解，该模

2025年6月30号 9:57

3.8k

腾讯开源 Hunyuan-A13B:小尺寸，大智慧的 AI 模型

Hunyuan-A13B 是一个由腾讯最新开源的大语言模型，它以创新的设计理念，在相对较小的活跃参数规模下，实现了强大的性能表现，特别适用于资源受限的环境。这款模型采用了细粒度 MoE（Mixture-of-Experts）架构，拥有130亿活跃参数，但总参数量高达800亿。这种设计让它在保持高效和可扩展性的同时，能够提供前沿的推理能力和通用应用支持。Hunyuan-A13B 的核心功能亮点包括:支持快慢思维的混合推理模式:这种独特的推理机制让模型能够根据任务需求灵活调整思考深度，提升处理复杂问题的效率

2025年6月30号 9:28

2.4k

Runway AI重磅推出“游戏世界” 大型互动文本冒险来了

近日，AI技术先锋企业Runway宣布即将推出其全新生成式AI平台“游戏世界”（Game Worlds），这一创新产品不仅标志着Runway从影视领域的成功拓展至游戏行业，更为广大创作者和玩家带来了全新的互动体验。“游戏世界”:AI驱动的互动文本冒险Runway的“游戏世界”平台以生成式AI为核心，允许用户通过简单的文字输入即可创建并体验基于文本的冒险游戏。与传统游戏开发需要大量资源和专业技能不同，该平台通过AI自动生成游戏的文本叙述和配套图像，大幅降低了创作门槛。用户只需提供游戏世

2025年6月30号 9:27

2.8k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图