在最新的研究中,一项名为Flash Diffusion的新方法为图像生成技术带来了革命性的突破。该方法通过训练预测模型以在单个步骤中生成经过去噪的多步骤预测结果,从而加速了预训练扩散模型的生成过程。
产品入口:https://top.aibase.com/tool/flash-diffusion
研究人员表示,闪电扩散方法不仅在少量步骤图像生成方面取得了最先进的 FID 和 CLIP-Score 表现,而且在训练过程中所需的 GPU 时间和可训练参数数量都比现有方法少。此外,该方法在文本转图像、修补、换脸、超分辨率等多个任务上展现了高效性和多才多艺性。
研究人员指出,Flash Diffusion方法的创新之处在于其采用了可调整的分布以选择时间步长,从而帮助预测模型更好地定位特定时间步。此外,方法还采用了对抗目标,通过训练鉴别器来区分生成样本和真实样本,并将其应用于潜在空间以降低计算需求。同时,研究团队还使用了分布匹配蒸馏损失,以确保生成样本与预测模型学习到的数据分布密切相似。
此外,研究人员还展示了Flash Diffusion方法适应不同骨干网络的能力,包括基于 UNet 的去噪器(SD1.5、SDXL)和 DiT(Pixart-α),以及适配器。在多个示例中,该方法显著减少了采样步骤的数量,同时保持了图像生成的高质量。
Flash Diffusion方法的出现为图像生成技术注入了新的活力,极大地提高了生成过程的效率和多功能性。这一突破性的方法有望在各个领域产生深远影响,并为相关研究领域带来新的机遇和挑战。