OpenAI推全新模型sCM，内容生成速度提升50倍，生图只需0.1秒

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月24号 9:01

271

近日，OpenAI 的研究人员发布了一项令人振奋的研究成果，介绍了一种全新的连续时间一致性模型（sCM）。这一模型在生成多媒体内容(如图像、视频和音频)的速度上实现了飞跃，相较于传统的扩散模型，速度提高了整整50倍。具体来说，sCM 能够在不到0.1秒的时间内生成一幅图像，而传统扩散模型则往往需要超过5秒。

研究团队通过这项技术，成功地在仅需两次采样步骤的情况下，生成出高质量的样本。这一创新使得生成过程更为高效，而不会牺牲样本的质量。文章由 OpenAI 的两位研究人员 —Lu Cheng 和 Yang Song 共同撰写，并已在 arXiv.org 上发表，虽然尚未经过同行评审，但其潜在影响不容小觑。

Yang Song 在2023年的一篇论文中首次提出了 “一致性模型” 的概念，这为 sCM 的发展奠定了基础。尽管扩散模型在生成真实感图像、3D 模型、音频和视频方面表现出色，但其采样效率不高，通常需要数十到数百个步骤，这让其在实时应用中显得捉襟见肘。

采样速度更快

sCM 模型的最大亮点是，它能在不增加计算负担的情况下，实现更快的采样速度。OpenAI 的最大 sCM 模型拥有15亿个参数，在一块 A100GPU 上，生成样本的时间仅为0.11秒。与扩散模型相比，这导致挂钟时间加快了50倍，使实时生成式 AI 应用更加可行。

需要更少的计算资源

在样本质量方面，sCM 在 ImageNet512×512数据集上经过训练，达到了1.88的 Fréchet Inception Distance（FID）分数，这与顶级扩散模型相差不到10%。通过与其他先进生成模型进行广泛基准测试，研究团队证明了 sCM 在提供顶尖结果的同时，计算开销也显著减少。

未来，sCM 模型的快速采样和可扩展性将为多个领域的实时生成 AI 应用开启新的可能性。从图像生成到音频和视频合成，sCM 都提供了一个实用的解决方案，满足了对快速、高质量输出的需求。同时，OpenAI 的研究还暗示了进一步优化系统的潜力，可能会根据不同产业的需求来加速模型的性能。

官方博客:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/

论文:https://arxiv.org/html/2410.11081v1

划重点:
📈 新型 sCM 模型的速度提升了50倍，图像生成时间缩短至0.1秒。
🖼️ 仅需两步采样，sCM 能生成高质量样本，效率显著提高。
⚙️ 未来应用广泛，包括实时图像、音频和视频生成，潜力巨大。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

微软备战OpenAI的GPT-5模型，预计即将发布GPT-4.5

近日，有消息人士透露，微软正在积极准备即将发布的 OpenAI 新模型 ——GPT-4.5及 GPT-5。根据 OpenAI 首席执行官山姆・阿特曼的说法，GPT-4.5将在数周内正式推出，微软则预计最早将在下周托管这一新 AI 模型。GPT-4.5代号 “猎户座”，是 OpenAI 的下一代模型，并且是公司最后一个非链式思维（non-chain-of-thought）模型。业内人士指出，GPT-4.5的能力有望大幅超越其前任 GPT-4。图源备注：图片由AI生成，图片授权服务商Midjourney不过，眼下的焦点不仅仅停留在 GPT-4.5，微软也在期待 GPT-5的到来。根据消

OpenAI Operator工具向多国Pro用户推出欧洲地区推广仍在进行

北京时间，2025 年 2 月 21日讯：OpenAI 今日宣布，其人工智能工具 Operator 已正式向澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国以及 ChatGPT 可用的多数地区的 Pro 用户推出。这一消息通过 X 平台发布，标志着 Operator 的全球化推广迈出重要一步。然而，欧盟、瑞士、挪威、列支敦士登和冰岛的推广工作仍在进行中，具体进展有待后续更新。Operator 扩展至多国Operator 是 OpenAI 开发的一款 AI 代理工具，能够通过视觉界面控制浏览器，自主完成订票、购物等网络任务。该工具最初于

AI新闻资讯