快手、北大联手开源视频生成模型Pyramid-Flow ：可生成10秒超高清视频

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Oct 11, 2024

393

最近，快手和北京大学以及北京邮电大学的研究团队共同开源了一个名为 Pyramid-Flow 的超高清视频生成模型。

这个模型能够通过文本描述生成最高10秒、1280x768分辨率、24帧的视频，质量相当出色，光影效果、动作一致性、视频质量等方面表现都很不错。

Pyramid Flow 的工作原理与现有的视频扩散模型不同。现有模型通常在全分辨率下运行，这样做虽然能产生高质量的结果，但却消耗了大量计算资源。而 Pyramid Flow 则采用了流匹配的灵活性，可以在不同分辨率和噪声水平之间进行插值，这样就能更高效地生成和解压缩视频内容。

这一切都通过一个名为 DiT 的单一框架进行优化，大大缩短了训练时间。Pyramid-Flow 在 A100GPU 上仅经过了20，700小时的训练，能耗和效率远超市面上的同类模型。这对于那些没有庞大算力的中小企业和个人开发者来说，无疑是一个巨大的助力。

Pyramid-Flow 的创新之处在于它采用了一种名为金字塔流匹配的技术。这种方法将视频生成分解为多个不同分辨率的阶段，开始时生成低分辨率的草图，然后逐步提升到高分辨率。这样的设计既降低了计算负担，又提高了生成的灵活性。每个阶段都是从一个像素化的噪声表示演变而来，直到变得清晰。为了确保每个阶段之间的连续性，算法在过渡时会重新引入一些噪声。

此外，模型还利用自回归框架和块状因果注意力机制，使每一帧都能基于之前的帧进行生成，确保视频的连贯性和逻辑性。

官方示例：生成的10秒视频

官方示例：图片生成视频

在性能方面，Pyramid Flow 在各大比较平台上都表现优异。与市面上的一些商业模型相比，尽管它只使用了公共视频数据，但在质量和流畅度评分上都不遑多让。此外，通过用户调查发现，参与者普遍对 Pyramid Flow 的生成效果表示满意，尤其是在视频的运动平滑度方面，表现更加出色。

无论是想要生成精彩的视频内容的创作者，还是在探索新技术的研究者，Pyramid Flow 都为他们提供了一个高效、易用的选择。

项目入口:https://huggingface.co/rain1011/pyramid-flow-sd3

划重点:
🌟 该技术可生成768p 分辨率、24帧每秒、时长10秒的视频，且支持图像到视频的生成。
💡 使用流匹配的方式，在不同分辨率和噪声水平之间进行插值，从而提高计算效率。
🚀 在多个平台上表现优异，用户普遍对其视频生成效果给予高度评价。

Pyramid-Flow 超高清视频生成模型快手 DiT

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！

开源人工智能的星空，昨夜骤然被一颗新星照亮!备受瞩目的 Step1X-Edit 图像编辑框架，已于2025年4月24日正式登陆 Hugging Face 社区，瞬间点燃了全球开发者和创意工作者的热情。这不仅仅是又一个开源工具的发布，更像是一次对现有图像编辑格局的强力挑战。据悉，Step1X-Edit 巧妙地将强大的多模态大语言模型（Qwen-VL）与先进的扩散变换器(DiT)深度融合，赋予用户通过简单的自然语言指令，即可实现令人惊叹的高精度图像编辑能力。其表现出的卓越性能，甚至敢于直接叫板像 GPT-4o 与 Gemini2Flash

2025年4月28号 10:59

1.2k

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆Moonshot AI最近推出的Kimi-Audio是一款开源音频基础模型，旨在推动音频理解、生成和交互技术的发展。该模型基于Qwen2.5-7B架构，结合Whisper技术，支持多种音频任务，如语音识别和音频问答。凭借超过13亿小时的多样化音频数据训练，Kimi-Audio在多

2025年4月27号 15:39

5.7k

Step1X-Edit：开源图像编辑新标杆媲美GPT-4o等闭源模型

2025年4月27日，AIbase报道：由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源，引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性，展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。以下是对Step1X-Edit的全面解析，涵盖其技术亮点、应用场景及未来影响。创新技术架构Step1X-Edit采用多模态大语言模型（MLLM）与扩散变换器（DiT）的结合，通过处理用户提供的参考图像和编辑指令，生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散

2025年4月27号 8:53

710

腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

腾讯混元团队宣布其最新研发的InstantCharacter框架现已正式开源。这一基于扩散变换器（DiT）的角色个性化框架，以其高一致性、灵活性和开源特性引发业界广泛关注，为开发者与创作者提供了从单张图像到多样化角色定制的强大工具。AIbase为您解析InstantCharacter的核心亮点及其对AI内容创作的深远影响。InstantCharacter:角色定制的突破性框架InstantCharacter是腾讯混元基于Flux.1模型打造的可扩展框架，专为开放域角色个性化设计。社交媒体平台上的讨论显示，该框架只需一张角色图像和文本提示，

2025年4月18号 13:54

1.8k

阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源

阿里巴巴旗下的通义实验室在Hugging Face和GitHub平台正式开源了其最新的Wan2.1-FLF2V-14B首尾帧生视频模型。这一模型以其支持高清视频生成和灵活的首尾帧控制功能引发业界热议，为AI驱动的视频创作提供了全新可能。Wan2.1-FLF2V-14B:首尾帧驱动的视频生成新标杆Wan2.1-FLF2V-14B是阿里通义万相系列的最新力作，基于数据驱动训练和**DiT（Diffusion Transformer）**架构，专为首尾帧视频生成设计。据社交媒体平台上的讨论，该模型只需用户提供两张图片作为首帧和尾帧，即可生成一段长约5秒、720p分辨率的

2025年4月18号 10:52

3.0k

通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B

阿里通义宣布开源 Wan2.1系列模型，其中包括强大的首尾帧生视频模型。这一模型采用了先进的 DiT 架构，在技术上实现了多项突破，显著降低了高清视频生成的运算成本，同时确保了生成视频在时间与空间上的高度一致性。此次开源为开发者和创作者提供了强大的工具，推动视频生成技术的发展。

2025年4月18号 7:58

2.8k

Gradio 5.24炸裂更新：AI图像编辑媲美Photoshop，开发者福音来了！

近日，开源AI界面框架Gradio发布了其5.24版本，这一更新因其全新设计的ImageEditor组件而引发了开发者社区的广泛热议。据AIbase了解，Gradio5.24将图像编辑功能提升至专业级别，新增了类似Photoshop的缩放与平移操作、完整的透明度控制以及自定义图层功能，为AI应用的图像处理能力注入了新的活力。这一升级被认为是开发者构建高质量图像编辑演示的重大突破。媲美专业软件:全新编辑体验Gradio5.24的ImageEditor组件彻底革新了以往的图像处理方式。新版本引入了类似Photoshop的缩放与平移功能，用户

2025年4月10号 10:56

7.9k

EasyControl：让DiT模型拥有ControlNet般强大操控，支持吉卜力画风转换

在人工智能绘画领域，扩散模型（Diffusion Model）正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而，DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日，由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架，旨在为DiT模型提供高效且灵活的条件控制能力，犹如为DiT模型装上了强大的“ControlNet”。EasyControl的核心优势EasyControl并非简单的模型叠加，而是一套经过精心设计的统一条件DiT框架。其核心优势在于通过引入轻量级的条件注入LoRA模块（Condition Injection LoRA mod

2025年4月7号 13:49

14.8k

快手可灵AI全面焕新升级上新“AI音效”、“资产管理”等新功能

快手旗下的可灵AI平台宣布进行全面焕新升级。此次更新以“可灵AI，灵感成真”为核心理念，从视觉体系到交互体验进行了全方位的优化，旨在为创作者提供更高效、更便捷的创意素材生产与管理工具。

2025年3月28号 8:28

3.0k

可灵AI重大更新：多图参考优化、生成速度提升与视频延长功能上线

快手旗下人工智能创作平台“可灵AI”（Kling）再次迎来重要功能升级。根据最新消息，可灵AI在用户界面、多图参考生成以及视频创作能力上进行了全面优化，包括:更快的生成速度、更准确的提示响应（更好的语义理解）、改进的图像质量。可灵AI此次更新对原有的界面设计进行了大幅调整。此前被部分用户形容为“花哨”的UI现已得到优化，变得更加简洁直观。这一变化不仅提升了使用体验，也让创作者能够更专注于内容创作本身，而非繁琐的操作流程。多图参考更新:更快、更智能本次

2025年3月27号 11:27

3.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

快手、北大联手开源视频生成模型Pyramid-Flow ：可生成10秒超高清视频

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；​夸克AI超级框上线 “拍照问夸克”

Step1X-Edit：开源图像编辑新标杆 媲美GPT-4o等闭源模型

​腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

​阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源