字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月11号 16:27

311

在图像生成领域，高分辨率和逼真图像的任务一直面临多重挑战，特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归（VAR）框架。

这些模型虽然能够产生高质量的图像，但需要消耗大量计算资源，这使得它们在实时应用中显得不够灵活。与此同时，VAR 模型在处理离散标记时容易产生累积误差，导致生成的图像细节丢，从而影响图像的真实感。

为了克服这些不足，字节跳动的研究团队推出了名为 “Infinity” 的全新框架，该框架旨在提升文本到图像合成的效率和质量。

Infinity 通过引入比特级标记替代传统的索引级标记，实现了更细粒度的表示方式，从而显著减少了量化误差并提高了生成图像的真实度。此外，该框架还使用了一个无限词汇分类器（IVC），将标记词汇扩展到2^64，大幅降低了内存和计算需求。

Infinity 架构主要由三部分组成:一种比特级多尺度量化标记器，将图像特征转化为二进制标记，以计算开销;一种基于变换器的自回归模型，该模型根据文本提示和先前输出预测残差;以及一种自我修正机制，在训练过程中引入随机比特翻转，提高模型对误差的鲁棒性。研究团队利用 LAION 和 OpenImages 等大型数据集进行训练，通过逐步提升图像分辨率，从256×256到1024×102的过程，取得了显著的进展。

经过评估，Infinity 在关键指标上显示出了优秀的性能，其 GenEval 得分为0.，Fréchet Inception Distance（FID）降低至3.48，证明了其在生成速度和质量方面的提升。Infinity 能在0.8秒内生成1024×1024的高分辨率图像，表现出其高效性和可靠性。该系统生成的图像不仅在视觉上真实且细节丰富，还能够准确响应复杂的文本指令，得到了较高的人类偏好评分。

Infinity 的推出标志着高分辨率文本到图像合成领域的新标杆，它通过创新的设计解决了长期存在的可扩展性和细节质量问题，推动了生成 AI 的进一步发展。

论文:https://arxiv.org/abs/2412.04431

划重点:
🌟 ** 创新框架 Infinity:** 字节跳动推出的 Infinity 框架，通过比特级标记化和无限词汇分类器，大幅提升高分辨率图像生成效率。
⚡ ** 卓越性能:** Infinity 在关键评估指标上超越了现有模型，能在0.8秒内生成1024×1024的高质量图像。
🖼️ ** 真实细节与响应能力:** 生成的图像不仅视觉真实，还能精准响应复杂文本提示，表现出高人类偏好评分。

Runway推全新AI图像生成器Frames，打造电影级视觉表现

AI 媒体科技公司 Runway 宣布推出其最新的文本生成图像模型 ——Frames。作为一家以 AI 视频模型闻名的公司，Runway 此举意在扩展其在图像创作领域的影响力。Frames 的推出，获得了用户的广泛好评，尤其在生成电影般的视觉效果方面，备受赞誉。该模型在2024年11月首次公布，并在过去几周内先行供给 Runway 创作者计划的用户进行体验，现已向所有订阅用户开放。Frames 的使用需通过 Runway 的无限计划或企业计划进行订阅，月费为95美元，年度订阅则为912美元，而企业计划的年费为1500美元。用户

字节跳动豆包全新上线AI编程功能，引入 GitHub 开源仓库

字节跳动旗下的豆包正式上线全新的 AI 编程功能，这一功能适用于豆包的电脑版和网页版，旨在提升开发者的编程效率和使用体验。从页面来看，用户现在可以轻松地通过一键上传多个本地代码文件，或者实时引入 GitHub 开源仓库，从而快速获取项目的完整上下文，无需繁琐的逐段复制操作。豆包的这一新功能配备了全新的代码编辑器，提供沉浸式阅读体验，帮助开发者更专注于代码本身。当用户需要对代码片段进行解释或调整时，能够精准圈选相关部分，大大提高了互动性和便利性。此

微软AI安全报告揭示：最有效的攻击源自“快速工程”而非复杂技术

自2021年以来，微软的 AI 安全团队对100多种生成式 AI 产品进行了测试，以寻找薄弱环节和道德问题。他们的发现挑战了一些关于 AI 安全的常见假设，并强调了人类专业知识的持续重要性。事实证明，最有效的攻击并不总是最复杂的攻击。微软报告中引用的一项研究指出:“真正的黑客不会计算梯度，而是使用快速工程。”该研究将人工智能安全研究与现实世界的实践进行了比较。在一次测试中，该团队仅通过将有害指令隐藏在图像文本中就成功绕过了图像生成器的安全功能——无需复杂的

英伟达开源文生图模型Sana 笔记本电脑也能秒速生成4K超高清图像

AI 图像生成技术正在飞速发展，但模型体积越来越大，对普通用户来说，训练和使用成本都非常高。现在，一种名为 “Sana” 的新型文本到图像框架横空出世，它能够高效生成高达4096×4096分辨率的超高清图像，而且速度惊人，甚至可以在笔记本电脑的 GPU 上运行。Sana 的核心设计包括:深度压缩自编码器:与传统自编码器仅压缩图像8倍不同，Sana 使用的自编码器可以将图像压缩32倍，从而有效地减少了潜在的 tokens 数量。这对于高效训练和生成超高分辨率图像至关重要。线性 DiT:Sana 用线性注意

AI新闻资讯