Masked Diffusion Transformer (MDT)

Masked Diffusion Transformer是图像合成的最新技术，为ICCV 2023的SOTA（State of the Art）

普通产品图像图像图像合成

MDT通过引入掩码潜在模型方案来显式增强扩散概率模型（DPMs）在图像中对象部分之间关系学习的能力。MDT在训练期间在潜在空间中操作，掩蔽某些标记，然后设计一个不对称的扩散变换器来从未掩蔽的标记中预测掩蔽的标记，同时保持扩散生成过程。MDTv2进一步通过更有效的宏网络结构和训练策略提高了MDT的性能。

Best AI Websites & Tools

Masked Diffusion Transformer (MDT)

Masked Diffusion Transformer (MDT) 最新流量情况

Masked Diffusion Transformer (MDT) 访问量趋势

Masked Diffusion Transformer (MDT) 访问地理位置分布

Masked Diffusion Transformer (MDT) 流量来源

Masked Diffusion Transformer (MDT) 替代品

Sana-1.6B — 高分辨率图像合成的线性扩散变换器

Sana — 高效率的高分辨率图像合成框架

FILM — 大场景动作的帧间插值模型

FlashVideo — FlashVideo 是一个高效的高分辨率视频生成模型，专注于细节和保真度的流动。

DeepSeek 模型兼容性检测 — 检测设备是否能运行不同规模的 DeepSeek 模型，提供兼容性预测。

Huginn-0125 — Huginn-0125是一个35亿参数的潜变量循环深度模型，擅长推理和代码生成。

recurrent-pretraining — 大规模深度循环语言模型的预训练代码，支持在4096个AMD GPU上运行。

InspireMusic — 基于 PyTorch 的音乐、歌曲和音频生成工具包，支持高质量音频生成

Lumina-Video — Lumina-Video 是一个用于视频生成的初步尝试项目，支持文本到视频的生成。

Brain2Qwerty — 一种非侵入式脑机接口技术，通过脑电图或脑磁图解码大脑活动以实现文本输入。

VisoMaster — 强大的视频替换与编辑软件，利用AI技术实现自然效果。

MNN — MNN 是阿里巴巴开源的轻量级高性能推理引擎，支持多种主流模型格式。

LLaSA_training — LLaSA： 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量

VideoJAM — VideoJAM 是一种用于增强视频生成模型运动连贯性的框架。

BEN2 — BEN2是一个基于深度学习的图像分割模型，专注于背景擦除和前景提取。

DeepResearch123 — AI研究资源导航网站，提供AI研究资源、文档和实践案例

node-DeepResearch — 持续搜索和阅读网页，直到找到答案（或超出token预算）。

MatAnyone — MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

Open R1 — 这是一个完全开放的 DeepSeek-R1 模型的复现项目，旨在帮助开发者复现和构建基于 R1 的模型。

Video Depth Anything — Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

YuE-s1-7B-anneal-en-cot — YuE是一个开源的音乐生成模型，能够将歌词转化为完整的歌曲。

Tarsier — Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

Flux-Midjourney-Mix2-LoRA — 一款基于Midjourney风格的文本到图像生成模型，专注于高分辨率和写实风格的图像创作。

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

VideoLLaMA3 — VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

Momodel.cn — 在线学习Python、AI、大模型、AI写作绘画课程，零基础轻松入门。

Flex.1-alpha — 一个基于文本生成图像的预训练模型，具有80亿参数和Apache 2.0开源许可。

LLaSA_training — LLaSA：扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量