加速视频生成新方法PAB：可实时生成视频每秒21.6帧

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jun 28, 2024

166

近日，新加坡国立大学和普渡大学的研究人员成功提PAB技术，实现了基于扩散式转换的视频生成的实时处理。

产品入口：https://top.aibase.com/tool/pab

这项技术是基于 Diffusion Transformer（DiT）的视频生成模型的首次尝试，通过减少冗余的关注计算，实现了高达21.6帧每秒的生成速度，加速了10.6倍，而且在不牺牲质量的情况下适用于多个热门的 DiT 视频生成模型，包括 Open-Sora、Open-Sora-Plan 和 Latte。PAB 是一种无需训练的方法，可以为未来的 DiT 视频生成模型赋予实时生成的能力。PAB 无需经过训练，能够赋予未来任何基于扩散式转换的视频生成模型实时处理的能力。

重要功能特点：

PAB关注广播通过减少冗余的关注计算，显著提高了视频生成的速度，实现了实时生成。
根据关注的稳定性和差异性，PAB 为不同类型的关注设置了不同的广播范围，从而在保证计算效率的同时最小化了质量损失。
通过改进序列并行处理技术，PAB 减少了多 GPU 之间的通信开销，进一步提高了视频生成的速度和效率。

研究人员发现，视频扩散式转换模型中的注意力机制存在着明显的时间步骤间的差异，通过这一发现，提出了PAB以减轻不必要的注意力计算。在稳定的中间部分，PAB 将一个扩散步骤的注意力输出广播到后续的多个步骤，从而显著减少了计算成本。此外，为了更高效的计算和最小化质量损失，针对不同的注意力类型设置了不同的广播范围。

为了进一步提高视频生成速度，研究人员改进了基于动态序列并行（DSP）的并行处理方法，通过广播时间注意力，消除了大部分通信开销，实现了超过50% 的通信开销降低，为实时视频生成提供了更加高效的分布式推断能力。

划重点:
⭐ PAB技术实现了实时视频生成，加速了10.6倍的处理速度。
⭐ 通过观察视频扩散式转换模型的注意力机制差异，提出了 PAB 以减轻不必要的注意力计算。
⭐ 通过改进并行处理方法，大幅降低了通信开销，为实时视频生成提供了更高效的分布式推断能力。

AI头条

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

2024年7月24号 14:53

3.9k

ElevenLabs Reader应用上架Android 将新增32种语言支持

ElevenLabs 推出的移动阅读器 App 在Android平台登陆，突破性地集文字朗读、PDF/ePub文件阅读与高品质AI语音合成技术于一身，让用户随时随地能聆听精彩文章，不论文字阅读是否便捷。支持美英加三国语言与32种语言规划，即将全球上线。其拿手的人工智能技术可模仿包括朱迪·加兰、詹姆斯·迪恩等传奇人物的声音，让用户以个性化的方式享受阅读乐趣。应用操作简易：加载文本、链接或文件后，通过底部的声音选项卡挑选风格各异的配音，包含原始、合成、克隆和标志性声音库。ElevenLabs Reader为阅读增添了声音维度，不仅是文字的盛宴，也是聆听的绝美享受。下载链接：https://play.google.com/store/apps/details?id=io.elevenlabs.readerapp

2024年7月23号 16:36

3.1k

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

2024年7月23号 16:26

2.0k

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

2024年7月23号 16:23

2.7k

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

2024年7月23号 15:47

4.6k

微软研究院推AI框架E5-V:用文本对的单模态训练简化多模态学习降低成本

微软研究院与北京航空航天大学团队合作推出了名为E5-V的高效多模态嵌入框架，旨在解决多模态大语言模型（MLMs）发展中存在的挑战。这一创新框架通过单模态训练简化多模态学习过程，并克服以往模型依赖独立编码器，导致输入整合效果不佳的问题。E5-V通过统一文本、图像信息，减少了训练成本，并在多个复杂任务中展现了卓越性能，如文本-图像检索、图像检索等，特别是在零样本图像检索任务上，相较于顶级模型CLIP ViT-L，性能大幅提升。该框架不仅提高了多模态数据处理的效率，更在复合图像检索任务中超越了当前先进方法，验证了其在提升模型表现上的有效性。E5-V框架代表了多模态学习领域的重要进步，未来有望在多模态研究中树立新标准并具有广泛的应用潜力。

2024年7月23号 14:57

2.4k

LensGo AI推FaceSync功能可将你的声音和口型转移到目标图像

LensGo AI推出FaceSync：将用户表演同步到图片或视频中，带来无缝的视觉体验，用户能自由表达，不受形象限制。借助AI技术，实现面部表情、声音、口型的精准捕捉及映射。正处测试阶段，优化中以确保技术稳定与表现力，目标满足用户降望与专业标准，开启无限创意探索。

2024年7月23号 11:41

3.3k

英伟达股价大幅上涨，因新款AI芯片符合美国出口规则

英伟达公司（Nvidia）股价因新Blackwell芯片中国市场版确保美国出口管制合规而在周一早盘大幅上涨4%，股价达122.76美元。此举作为缓解半导体行业面临贸易限制与地缘政治风险的关键手段，标志着Nvidia与中国技术公司Inspur联合推出符合规定芯片的计划为市场注入了强心剂。Nvidia预报的B20黑威尔2代芯片预计于2025年第二季度发货，全面提振市场信心。整体而言，Nvidia在芯片困境下的灵活性与市场的强烈需求推动了股价在过去一年里螺旋上升超过一倍。此情此景提示了市场对Nvidia持续创新能力与未来市场前景的乐观期待。

2024年7月23号 11:31

2.1k

震惊AI界！Llama 3.1泄露：4050亿参数的开源巨兽来袭！

近期，有着4050亿参数的开源大型语言模型LLama3.1因在Reddit上泄露，引发了广泛关注，被视为目前最接近GPT-4o的开源产品，甚至在某些性能上超越了GPT-4o。模型由Meta（原Facebook）推出，包括基础与70B版本的基准测试结果，在多项性能测试上均超出GPT-4o。LLama3.1在多语言支持能力与广泛训练数据集（逾15T tokens、直至2023年底）的基础上提供出色的多语言对话性能。研究团队注重模型安全，通过多方位数据收集策略，结合人工与合成数据，引入边界和对抗性提示以优化数据质量。此开源模型的泄露，不仅展示了强大性能，也成为表明开源社区对大型AI模型发展的积极贡献。

2024年7月23号 10:36

2.9k

Luma AI推Loops功能：可根据文本、图片生成丝滑无限循环视频

Luma AI, 一家位于旧金山的人工智能公司, 正式推出了其名为 “Loops” 的 Dream Machine 平台新功能。这一功能使用户能够通过文本描述、图片或关键帧一键制作无缝、连续的视频循环, 简化了视频创作过程，极大地提高了效率。特别是对于内容创作者和数字营销人员而言，此功能使得无限循环视频成为可能，大幅减少了制作时间和成本。Luma AI 在其官方推特上展示了该功能的众多创意应用案例，如宇宙飞船穿越超空间的画面、水豚在公园骑自行车的场景，展示了创作出完美循环视频的潜力。值得注意的是，“Loops” 功能解决了 AI 生成视频时常见的不连贯性问题，以平滑流畅的效果吸引观众，降低制作门槛。Luma AI 对 AI 开发秉持负责任态度，已计划引入水印和归属系统，保证内容透明度。未来，Luma AI 计划推出 API 和插件，旨在与流行创意软件集成，进一步拓展影响力。总之，作为新功能，Luma AI 的“Loops”正以高度创新和实用性改变视频创作领域，同时关注技术与伦理的平衡。

2024年7月23号 10:14

8.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

加速视频生成新方法PAB：可实时生成视频 每秒21.6帧