重大突破！OpenAI新技术让AI绘图提速50倍，仅需0.11秒生成一张图

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月25号 10:52

147

OpenAI最近公布了一项名为sCM（简化型、稳定型和可扩展型一致性模型）的突破性技术，这一创新彻底改变了AI图像模型的训练方式。该技术在原有的一致性模型(CMs)基础上实现了重大突破，为快速图像生成开辟了新天地。

技术核心优势:

只需两步计算即可生成高质量图像

在A100GPU上生成一张图片仅需0.11秒

相比传统扩散模型，速度提升50倍

最大模型参数达15亿，创下新纪录

在实际测试中，sCM的表现令人瞩目。在CIFAR-10数据集上获得了2.06的FID评分，在ImageNet上生成512x512像素图像时达到了1.88的优异成绩。这些指标仅比现有最佳扩散模型落后约10%，但速度却有质的飞跃。

技术革新的关键在于解决了传统一致性模型的根本性问题。此前的模型使用离散时间步长，不仅需要额外参数，还容易出错。OpenAI的研究团队通过建立简化的理论框架，统一了各种方法，成功识别并解决了训练不稳定的主要原因。

更令人期待的是，这项技术展现出强大的扩展潜力。OpenAI成功在ImageNet数据集上训练了参数量达15亿的模型，这在同类模型中尚属首次。研究发现，随着模型规模增大，图像质量持续提升，这意味着未来可能实现更大规模的模型训练。

黑森林实验室推FLUX Pro微调API，仅用五张样本图像就能定制AI模型

德国人工智能初创公司 Black Forest Labs （黑森林实验室）近日发布了一款FLUX Pro 微调 API，用户可以通过这款 API 使用仅仅五张样本图像来定制 FLUX Pro AI 图像模型，以匹配特定品牌的视觉风格。据 Black Forest Labs 介绍，经过微调后，模型仍然保持灵活性，能够将用户提供的内容融入到新的图像创作中，该系统能够生成最高达四百万像素的高分辨率图像。借助 FLUX Pro 微调 API，创作者可以利用自己的图片和概念对 FLUX.1[pro] 进行定制，从而更好地控制最终结果。用户提供的图像可用于训练 FLUX Pro 模

AI重大发现：最先进视觉模型在基础视觉推理能力上仍显不足

来自德国达姆施塔特工业大学的最新研究揭示了一个令人深思的现象:即便是当前最先进的AI图像模型，在面对简单的视觉推理任务时也会出现明显失误。这项研究结果对AI视觉能力的评估标准提出了新的思考。研究团队采用了由俄罗斯科学家Michail Bongard设计的Bongard问题作为测试工具。这类视觉谜题由12张简单图像组成，分为两组，要求识别出区分这两组的规则。对于大多数人来说，这种抽象推理任务并不困难，但AI模型的表现却令人意外。即便是目前被认为最先进的多模态模型GPT-4o，在100个

OpenAI推全新模型sCM，内容生成速度提升50倍，生图只需0.1秒

近日，OpenAI 的研究人员发布了一项令人振奋的研究成果，介绍了一种全新的连续时间一致性模型（sCM）。这一模型在生成多媒体内容(如图像、视频和音频)的速度上实现了飞跃，相较于传统的扩散模型，速度提高了整整50倍。具体来说，sCM 能够在不到0.1秒的时间内生成一幅图像，而传统扩散模型则往往需要超过5秒。研究团队通过这项技术，成功地在仅需两次采样步骤的情况下，生成出高质量的样本。这一创新使得生成过程更为高效，而不会牺牲样本的质量。文章由 OpenAI 的两位研究人员 —

MIT和Google联手推出StableRep技术，利用AI生成图像训练高效AI模型

["MIT和Google的研究人员合作开发了StableRep技术，通过AI生成图像训练详细高效的AI图像模型。","StableRep采用多正对比学习方法，使用数百万标记的合成图像进行训练，取得在ImageNet分类上的显著成就。","尽管取得成功，StableRep生成图像速度较慢，存在语义不匹配问题，底层模型需要在真实数据上进行初始训练。","技术已在GitHub上开源，可用于商业用途，但生成图像时间长，使用成本可能较高。"]