REPA技术将 AI 图像生成模型的训练速度提高了 17.5 倍

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月16号 14:25

研究人员最近开发了一种名为 REPA 的新技术，旨在加速 AI 图像生成模型的训练速度。REPA 代表 REPresentation Alignment，通过整合来自 DINOv2等模型的高质量视觉表示来提高训练速度和输出质量。

传统的扩散模型通常会创建嘈杂的图像，然后逐渐将其细化为干净的图像。REPA 增加了一个步骤，将在此去噪过程中生成的表示与来自 DINOv2的表示进行比较。然后，它将扩散模型的隐藏状态投影到 DINOv2的表示上。

研究人员表示，REPA 不仅提高了训练效率，还提高了生成的图像质量。使用各种扩散模型架构进行的测试显示出显着的改进:1. 训练时间减少了高达17.5倍2.输出图像质量无损失3.在标准图像质量指标上表现更佳

例如，使用 REPA 的 SiT-XL 模型仅用40万个训练步骤就实现了传统模型需要700万个步骤才能实现的目标。研究人员认为这是迈向更强大、更高效的 AI 图像生成系统的重要一步。

REPA 技术的出现为 AI 图像生成模型的训练速度和输出质量带来了新的希望。随着该技术的进一步发展和应用，我们可以期待看到更多的创新和突破。

Light-A-Video ：无需训练实现视频重新打光

近年来，图像重光照技术的进步得益于大规模数据集和预训练的扩散模型，使得一致性光照的应用变得更加普遍。然而，在视频重光照领域，由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集，进展相对缓慢。仅仅将图像重光照模型逐帧应用于视频，会导致多种问题，如光源不一致和重光照外观不一致，最终导致生成的视频出现闪烁现象。为了解决这一问题，研究团队提出了 Light-A-Video，这是一种无需训练的、能够实现时间上平滑视频重光照的方法。Light-A-Video 借鉴了图像重光

Google AI 提出了扩散模型中推理时间缩放的基本框架

来自纽约大学、麻省理工学院和谷歌的研究团队近日提出了一个创新框架，旨在解决扩散模型在推理时间扩展方面的瓶颈问题。这一突破性研究超越了传统简单增加去噪步骤的方法，为提升生成模型性能开辟了新途径。该框架主要从两个维度展开:一是利用验证器提供反馈，二是实施算法以发现更优的噪声候选。研究团队以256×256分辨率的预训练SiT-XL模型为基础，在保持250个固定去噪步骤的同时，创新性地引入了专用于搜索操作的额外计算资源。在验证系统方面，研究采用了两个Oracle Verifie

香港大学与快手科技联合推出 GameFactory 框架，助力游戏视频生成创新

在游戏开发领域，场景的多样性和创新性一直是一个难题。近期，香港大学与快手科技联手研发了一个名为 GameFactory 的创新框架，旨在解决游戏视频生成中的场景泛化问题。这一框架利用了预训练的视频扩散模型，能够在开放域的视频数据上进行训练，从而生成全新且多样化的游戏场景。视频扩散模型作为一种先进的生成技术，近年来在视频生成和物理模拟领域展现出巨大潜力。这些模型能够像视频生成工具一样，响应用户的操作输入，如键盘和鼠标，进而生成相应的游戏画面。然而，场

Runway推全新AI图像生成器Frames，打造电影级视觉表现

AI 媒体科技公司 Runway 宣布推出其最新的文本生成图像模型 ——Frames。作为一家以 AI 视频模型闻名的公司，Runway 此举意在扩展其在图像创作领域的影响力。Frames 的推出，获得了用户的广泛好评，尤其在生成电影般的视觉效果方面，备受赞誉。该模型在2024年11月首次公布，并在过去几周内先行供给 Runway 创作者计划的用户进行体验，现已向所有订阅用户开放。Frames 的使用需通过 Runway 的无限计划或企业计划进行订阅，月费为95美元，年度订阅则为912美元，而企业计划的年费为1500美元。用户

AI新闻资讯