Best AI Websites & Tools

AI产品榜

AI产品榜

Generative Powers of Ten

基于文本描述实现多尺度连续缩放视频生成。

普通产品设计生成模型多尺度

Generative Powers of Ten是一种利用文本到图像模型生成多尺度一致内容的方法，能够实现对场景的极端语义缩放，例如从森林的广角景观视图到树枝上昆虫的微距拍摄。这种表示方式使我们能够渲染连续缩放视频，或者交互式地探索场景的不同尺度。我们通过一种联合多尺度扩散采样方法实现这一点，该方法鼓励在不同尺度之间保持一致性，同时保留每个单独采样过程的完整性。由于每个生成的尺度都由不同的文本提示指导，我们的方法能够实现比传统的超分辨率方法更深层次的缩放，后者可能难以在完全不同的尺度上创建新的上下文结构。我们在图像超分辨率和外部绘制的替代技术上对我们的方法进行了定性比较，并表明我们的方法在生成一致的多尺度内容方面最为有效。

Generative Powers of Ten

基于文本描述实现多尺度连续缩放视频生成
可引导缩放级别以匹配输入图像
通过变化种子可以获得相同输入提示的不同结果
与稳定扩散的超分辨率和外部绘制模型进行基准比较

用户可以使用Generative Powers of Ten来实现多尺度连续缩放视频的生成，或者根据输入图像进行引导缩放。

使用Generative Powers of Ten生成森林景观到昆虫微距的连续缩放视频
使用Generative Powers of Ten实现对真实图像的无缝缩放
利用Generative Powers of Ten进行多尺度场景的交互式探索

Generative Powers of Ten 最新流量情况

月总访问量

893

跳出率

41.84%

平均页面访问数

1.0

平均访问时长

00:00:00

Generative Powers of Ten 访问量趋势

Generative Powers of Ten 访问地理位置分布

Generative Powers of Ten 流量来源

Generative Powers of Ten 替代品

BioEmu — BioEmu 是一个用于可扩展模拟蛋白质平衡系综的生成式深度学习模型。

生产力•生物分子模拟•深度学习

VisionAgent — VisionAgent是一个用于生成代码以解决视觉任务的库，支持多种LLM提供商。

图像•视觉任务•代码生成

One Shot LoRA — 快速轻松地从视频中训练高质量的LoRA模型

图像•LoRA 模型•视频处理

Deeptrain — 为语言模型和AI代理提供视频处理服务，支持多种视频来源。

视频•视频处理•语言模型

Video Depth Anything — Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

视频•深度学习•视频处理

Zight

Zight — Zight AI 是一款将视频转化为可操作文档的智能工具，支持自动生成标题、摘要和多语言字幕。

视频•视频处理•AI 技术

EurusPRM-Stage2 — EurusPRM-Stage2是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

编程•强化学习•隐式过程奖励

EurusPRM-Stage1 — EurusPRM-Stage1是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

编程•强化学习•隐式过程奖励

FlexRAG — 一个用于信息检索和生成的灵活高性能框架

编程•信息检索•生成模型

StereoCrafter

StereoCrafter — 将单目视频转换为沉浸式立体3D视频的框架

视频•3D转换•视频处理

VidTok — 微软开源的视频分词器家族

视频•视频分词•视频压缩

EndlessAI — AI视频能力展示平台

视频•视频处理•智能技术

MMAudio — MMAudio根据视频和/或文本输入生成同步音频。

音乐•音频合成•视频处理

VISION XL

VISION XL — 高清视频逆问题求解器，使用潜在扩散模型

视频•高清视频•逆问题求解

ComfyUI-HunyuanVideoWrapper — 视频处理界面，提供视频编码和解码功能

视频•视频处理•编码

AI-FFmpeg — 免费在线视频处理工具，支持压缩、转换、倍速等功能

视频•FFmpeg•视频处理

ComfyUI-GIMM-VFI — 基于GIMM-VFI的ComfyUI帧插值工具

图像•帧插值•视频处理

InstantIR — 盲图像恢复技术，利用即时生成参考图像恢复破损图像

图像•图像恢复•盲图像恢复

LongRAG — 长文本问答增强型检索生成模型

编程•长文本问答•检索增强

Stable Diffusion 3.5 Medium — 基于文本生成图像的多模态扩散变换器模型

图像•文本到图像•生成模型

sCM — 连续时间一致性模型的简化、稳定与扩展

图像•生成模型•图像生成

stable-diffusion-3.5-large-turbo

stable-diffusion-3.5-large-turbo — 高效能的文本到图像生成模型

图像•文本到图像•生成模型

VidPanos — 从手机拍摄的平移视频中生成全景视频

视频•全景视频•视频生成

Wav2Lip

Wav2Lip — 高精度视频唇形同步技术

视频•唇形同步•视频处理

Sieve Eye Contact Correction — 视频眼神校正API，让视频中的眼神看起来始终注视着摄像头。

视频•眼神校正•视频处理

Video Background Removal — 视频背景移除工具，一键去除视频背景。

生产力•视频处理•背景移除

Draw an Audio — 利用多指令视频到音频合成技术

音乐•音频合成•视频处理

FluxMusic — 使用文本生成音乐的模型

音乐•文本到音乐•生成模型