Denoising Vision Transformers

提供干净的视觉特征

普通产品图像图像处理深度学习

去噪视觉变换器（Denoising Vision Transformers，DVT）是一种针对视觉变换器（ViTs）的新型噪声模型。通过解剖ViT输出并引入可学习的去噪器，DVT能够提取无噪声的特征，从而在离线应用和在线功能中显著改善基于Transformer的模型的性能。DVT不需要重新训练现有的预训练ViTs，可立即应用于任何基于Transformer的架构。通过在多个数据集上进行广泛评估，我们发现DVT在语义和几何任务中持续显著改善现有的最先进通用模型（例如，+3.84 mIoU）。我们希望我们的研究能够鼓励重新评估ViT设计，特别是关于位置嵌入的天真使用。

Best AI Websites & Tools

Denoising Vision Transformers

Denoising Vision Transformers 最新流量情况

Denoising Vision Transformers 访问量趋势

Denoising Vision Transformers 访问地理位置分布

Denoising Vision Transformers 流量来源

Denoising Vision Transformers 替代品

VisoMaster — 强大的视频替换与编辑软件，利用AI技术实现自然效果。

MatAnyone — MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

MangaNinja — MangaNinja 是一种基于参考的线稿上色方法，可实现精确匹配和细粒度交互控制。

SVFR — SVFR是一个用于视频人脸修复的统一框架。

STAR — STAR是一种用于真实世界视频超分辨率的时空增强框架，首次将强大的文本到视频扩散先验集成到真实世界视频超分辨率中。

face_anon_simple — 人脸匿名化技术，保留关键细节同时有效保护隐私。

Watermark Anything — 图像水印技术，可在图片中嵌入局部化水印信息

Flux.1 Lite — 8B参数变分自编码器模型，用于高效的文本到图像生成。

Long-LRM — 高效3D高斯重建模型，实现大场景快速重建

PuLID-Flux ComfyUI implementation — ComfyUI的PuLID-Flux实现

torchao — PyTorch原生量化和稀疏性训练与推理库

diffusion-e2e-ft — 图像条件扩散模型的微调工具

Open-MAGVIT2 — 开源自回归视觉生成模型项目

AWPortrait-FL — 基于FLUX.1-dev的高级人像生成模型

Show-o — 统一多模态理解和生成的单一变换器

SF3D — 快速生成带纹理的3D模型

Live_Portrait_Monitor — 通过监控器让肖像动起来！

Gemma 2 — 谷歌下一代Gemma模型，提供突破性的性能和效率。

PuLID — 通过对比对齐进行 Pure 和 Lightning ID 定制

InstantMesh — 高效3D网格生成框架

SDXS — 实时一步潜在扩散模型,可用图像条件控制生成

img2img-turbo — img2img-turbo是一个基于img2img的改进版本，用于快速图像到图像的转换

Depthify.ai — 将2D RGB照片和视频转换为3D空间照片和视频

MovieLLM — MovieLLM是一个用于增强长视频理解的AI生成电影框架

DUSt3R — 无需相机校准信息的密集立体3D重建

Background Erase — 快速智能去背景

MoE-LLaVA — 基于大规模视觉-语言模型的专家混合模型

Depth Anything — 释放大规模未标记数据的力量