近日,OpenAI 的研究人员发布了一项令人振奋的研究成果,介绍了一种全新的连续时间一致性模型(sCM)。这一模型在生成多媒体内容(如图像、视频和音频)的速度上实现了飞跃,相较于传统的扩散模型,速度提高了整整50倍。具体来说,sCM 能够在不到0.1秒的时间内生成一幅图像,而传统扩散模型则往往需要超过5秒。

image.png

研究团队通过这项技术,成功地在仅需两次采样步骤的情况下,生成出高质量的样本。这一创新使得生成过程更为高效,而不会牺牲样本的质量。文章由 OpenAI 的两位研究人员 —Lu Cheng 和 Yang Song 共同撰写,并已在 arXiv.org 上发表,虽然尚未经过同行评审,但其潜在影响不容小觑。

image.png

Yang Song 在2023年的一篇论文中首次提出了 “一致性模型” 的概念,这为 sCM 的发展奠定了基础。尽管扩散模型在生成真实感图像、3D 模型、音频和视频方面表现出色,但其采样效率不高,通常需要数十到数百个步骤,这让其在实时应用中显得捉襟见肘。

采样速度更快

sCM 模型的最大亮点是,它能在不增加计算负担的情况下,实现更快的采样速度。OpenAI 的最大 sCM 模型拥有15亿个参数,在一块 A100GPU 上,生成样本的时间仅为0.11秒。与扩散模型相比,这导致挂钟时间加快了50倍,使实时生成式 AI 应用更加可行。

image.png

需要更少的计算资源

在样本质量方面,sCM 在 ImageNet512×512数据集上经过训练,达到了1.88的 Fréchet Inception Distance(FID)分数,这与顶级扩散模型相差不到10%。通过与其他先进生成模型进行广泛基准测试,研究团队证明了 sCM 在提供顶尖结果的同时,计算开销也显著减少。

image.png

未来,sCM 模型的快速采样和可扩展性将为多个领域的实时生成 AI 应用开启新的可能性。从图像生成到音频和视频合成,sCM 都提供了一个实用的解决方案,满足了对快速、高质量输出的需求。同时,OpenAI 的研究还暗示了进一步优化系统的潜力,可能会根据不同产业的需求来加速模型的性能。

官方博客:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/

论文:https://arxiv.org/html/2410.11081v1

划重点:

📈 新型 sCM 模型的速度提升了50倍,图像生成时间缩短至0.1秒。  

🖼️ 仅需两步采样,sCM 能生成高质量样本,效率显著提高。  

⚙️ 未来应用广泛,包括实时图像、音频和视频生成,潜力巨大。