InstructVideo

文本到视频的指导生成模型

中文精选视频文本到视频扩散模型

InstructVideo 是一种通过人类反馈用奖励微调来指导文本到视频的扩散模型的方法。它通过编辑的方式进行奖励微调，减少了微调成本，同时提高了微调效率。它使用已建立的图像奖励模型，通过分段稀疏采样和时间衰减奖励的方式提供奖励信号，显著提高了生成视频的视觉质量。InstructVideo 不仅能够提高生成视频的视觉质量，还能保持较强的泛化能力。欲了解更多信息，请访问官方网站。

Best AI Websites & Tools

InstructVideo

InstructVideo 最新流量情况

InstructVideo 访问量趋势

InstructVideo 访问地理位置分布

InstructVideo 流量来源

InstructVideo 替代品

AsyncDiff — 异步去噪并行化扩散模型

Lumina-T2X — 一个统一的文本到任意模态生成框架

Show-1 — Show-1 将像素和潜在扩散模型结合起来，以实现高效的高质量文本到视频的生成

MakeAnything — MakeAnything 是一个用于多领域程序化序列生成的扩散变换器模型。

FlashVideo — FlashVideo 是一个高效的高分辨率视频生成模型，专注于细节和保真度的流动。

Pippo — Pippo 是一个从单张照片生成高分辨率多人视角视频的生成模型。

Magic 1-For-1 — Magic 1-For-1 是一个高效的图像到视频生成模型，可在一分钟内生成一分钟的视频。

On-device Sora — On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。

DiffSplat — DiffSplat 是一个从文本提示和单视图图像生成 3D 高斯点云的生成框架。

R1-V — 低成本强化视觉语言模型的泛化能力，仅需不到3美元。

Go with the Flow — 一种用于控制视频扩散模型运动模式的高效方法，支持运动模式的自定义和迁移。

TokenVerse — TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。

X-Dyna — X-Dyna是一种基于扩散模型的零样本人类图像动画生成技术。

Hunyuan3D 2.0 — Hunyuan3D 2.0 是腾讯推出的高分辨率 3D 资产生成系统，基于大规模扩散模型。

Diffusion as Shader — 一种支持多种视频生成控制任务的统一架构模型。

STAR — STAR是一种用于真实世界视频超分辨率的时空增强框架，首次将强大的文本到视频扩散先验集成到真实世界视频超分辨率中。

CreatiLayout — 基于孪生多模态扩散变换器的创意布局到图像生成技术

VMix — 文本到图像扩散模型的美学质量提升工具

DiffSensei — 定制化漫画生成模型，连接多模态LLMs和扩散模型。

DynamicControl — 自适应条件选择，提升文本到图像生成控制力

ClipVideo AI — 快速AI视频生成平台

VideoVAEPlus — 高保真视频编码，适用于大运动场景的视频自编码器。

InvSR — 基于扩散反转的多步图像超分辨率模型

ColorFlow — 图像序列着色模型，保留细粒度身份信息

Leffa — 可控人物图像生成模型

ComfyUI_HelloMeme — 基于扩散模型的图像和视频生成工具

Zebracat — AI视频创作平台，快速制作专业视频

Color-diffusion — 利用扩散模型为黑白图片上色

Pollo AI — AI视频生成器，将想象变为现实