Vision Mamba

基于双向状态空间模型的高效视觉表示学习框架

普通产品图像计算机视觉深度学习

Vision Mamba是一个高效的视觉表示学习框架,使用双向Mamba模块构建,可以克服计算和内存限制,进行高分辨率图像的Transformer风格理解。它不依赖自注意力机制,通过位置嵌入和双向状态空间模型压缩视觉表示,实现更高性能,计算和内存效率也更好。该框架在 ImageNet分类、COCO目标检测和ADE20k语义分割任务上,性能优于经典的视觉Transformers,如DeiT,但计算和内存效率提高2.8倍和86.8%。

Best AI Websites & Tools

Vision Mamba

Vision Mamba 最新流量情况

Vision Mamba 访问量趋势

Vision Mamba 访问地理位置分布

Vision Mamba 流量来源

Vision Mamba 替代品

DUSt3R — 无需相机校准信息的密集立体3D重建

Vision Mamba — 基于双向状态空间模型的高效视觉表示学习框架

UniRef++ — 一个统一的用于图像和视频对象分割的模型

VisoMaster — 强大的视频替换与编辑软件，利用AI技术实现自然效果。

MatAnyone — MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

Video Depth Anything — Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

MangaNinja — MangaNinja 是一种基于参考的线稿上色方法，可实现精确匹配和细粒度交互控制。

SVFR — SVFR是一个用于视频人脸修复的统一框架。

STAR — STAR是一种用于真实世界视频超分辨率的时空增强框架，首次将强大的文本到视频扩散先验集成到真实世界视频超分辨率中。

TryOffAnyone — 从穿着人身上生成平铺布料的模型

StableAnimator — 高质量身份保留的人像动画合成工具。

LLaMA-Mesh — 3D网格生成与语言模型的统一

face_anon_simple — 人脸匿名化技术，保留关键细节同时有效保护隐私。

Watermark Anything — 图像水印技术，可在图片中嵌入局部化水印信息

Flux.1 Lite — 8B参数变分自编码器模型，用于高效的文本到图像生成。

Long-LRM — 高效3D高斯重建模型，实现大场景快速重建

PuLID-Flux ComfyUI implementation — ComfyUI的PuLID-Flux实现

StableDelight — 去除镜面反射，揭示隐藏纹理

Colorful Diffuse Intrinsic Image Decomposition — 一种在野外环境中分解图像为反射率和照明效果的技术。

opencv_contrib — OpenCV的额外模块库，用于开发和测试新的图像处理功能。

Open Source Computer Vision Library — 开源计算机视觉库

Open-MAGVIT2 — 开源自回归视觉生成模型项目

Shangchen Zhou — 专注于计算机视觉和机器学习领域的研究与创新的博客网站

AWPortrait-FL — 基于FLUX.1-dev的高级人像生成模型

Show-o — 统一多模态理解和生成的单一变换器

SF3D — 快速生成带纹理的3D模型

VGGSfM — 深度学习驱动的三维重建技术

Live_Portrait_Monitor — 通过监控器让肖像动起来！