ViTMatte

基于预训练的纯视觉变换器提升图像抠图

普通产品图像图像抠图视觉变换器

ViTMatte是一个基于预训练纯视觉变换器（Plain Vision Transformers, ViTs）的图像抠图系统。它利用混合注意力机制和卷积颈部来优化性能与计算之间的平衡，并引入了细节捕获模块以补充抠图所需的细节信息。ViTMatte是首个通过简洁的适配释放ViT在图像抠图领域潜力的工作，继承了ViT在预训练策略、简洁的架构设计和灵活的推理策略等方面的优势。在Composition-1k和Distinctions-646这两个最常用的图像抠图基准测试中，ViTMatte达到了最先进的性能，并以较大优势超越了先前的工作。

ViTMatte的目标受众主要是计算机视觉领域的研究人员和开发者，特别是那些对图像抠图技术有需求的用户。它适合需要高效、精确抠图解决方案的专业人士，如图像编辑、影视后期制作、增强现实等领域的专家。

在电影制作中，使用ViTMatte快速抠出角色，以便进行背景替换或特效添加。
在电子商务网站上，自动抠图用于商品图片的展示，提升用户视觉体验。
在增强现实应用中，利用ViTMatte对用户拍摄的图片进行实时抠图，实现虚拟对象与现实世界的融合。

1. 安装必要的依赖库和工具。
2. 下载并解压ViTMatte的代码库。
3. 根据需要选择合适的预训练模型权重。
4. 准备输入图像和对应的trimap。
5. 运行ViTMatte的demo脚本，对图像进行抠图。

打开网站

ViTMatte 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

ViTMatte 访问量趋势

ViTMatte 访问地理位置分布

ViTMatte 流量来源

ViTMatte 替代品

Best AI Websites & Tools

ViTMatte

ViTMatte 最新流量情况

ViTMatte 访问量趋势

ViTMatte 访问地理位置分布

ViTMatte 流量来源

ViTMatte 替代品

Magma — Magma 是一个能够理解和执行多模态输入的基础模型，可用于复杂任务和环境。

MILS — LLMs 无需任何培训就能看见和听见

timesfm-2.0-500m-pytorch — 由Google Research开发的预训练时间序列预测模型。

OpenEMMA — 开源的端到端自动驾驶多模态模型

ModernBERT-base — 高效处理长文本的双向编码器模型

SynCamMaster — 多视角视频生成同步技术

InternVL2_5-26B — 多模态大型语言模型，融合视觉与语言理解。

Meta Llama 3.3 — 70B参数的多语言大型预训练语言模型

ClearerVoice-Studio — 开源AI语音处理工具包，支持语音增强、分离和目标说话人提取。

Aria-Base-64K — 多模态原生Mixture-of-Experts模型

olmo-mix-1124 — 大规模多模态预训练数据集

ViTLP — 文档智能的视觉引导生成文本布局预训练模型

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — 开源的32亿参数代码生成语言模型

Qwen2.5-Coder-0.5B-Instruct — Qwen2.5-Coder系列中的指令调优0.5B参数代码生成模型

Qwen2.5-Coder-3B — Qwen2.5-Coder系列中的3B参数模型，专注于代码生成与理解。

Qwen2.5-Coder Technical Report — Qwen2.5-Coder系列技术报告

Aya Expanse-8b — 多语言大型语言模型，支持23种语言

DTLR — 手写文本识别和字符检测模型

OLMoE — 开源的专家混合语言模型，具有1.3亿活跃参数。

OpenCity — 开源时空基础模型，用于交通预测

EXAONE-3.0-7.8B-Instruct — 7.8亿参数的双语生成模型

Llama3 — 大型语言模型，支持多种参数规模

Meta Llama 3.1-405B — 大型多语言预训练语言模型

Index-1.9B-Pure — 轻量级大语言模型，专注于文本生成。

Index-1.9B-Chat — 基于19亿参数的对话生成模型

雅意信息抽取大模型 — 基于大规模数据的高质量信息抽取模型

Qwen2 — 新一代多语言预训练模型，性能卓越。

GLM-4V-9B — 开源多模态预训练模型，具备中英双语对话能力。

GLM-4-9B-Chat-1M — 新一代开源预训练模型，支持多轮对话和多语言。