SAMURAI

零样本视觉跟踪模型，具有运动感知记忆。

普通产品图像视觉跟踪零样本学习

SAMURAI是一种基于Segment Anything Model 2 (SAM 2)的视觉对象跟踪模型，专门设计用于处理快速移动或自遮挡对象的视觉跟踪任务。它通过引入时间运动线索和运动感知记忆选择机制，有效预测对象运动并优化掩膜选择，无需重新训练或微调即可实现鲁棒、准确的跟踪。SAMURAI能够在实时环境中运行，并在多个基准数据集上展现出强大的零样本性能，证明了其无需微调即可泛化的能力。在评估中，SAMURAI在成功率和精确度上相较于现有跟踪器取得了显著提升，例如在LaSOT-ext上AUC提升了7.1%，在GOT-10k上AO提升了3.5%。此外，与LaSOT上的全监督方法相比，SAMURAI也展现出了竞争力，强调了其在复杂跟踪场景中的鲁棒性以及在动态环境中的潜在实际应用价值。

Best AI Websites & Tools

SAMURAI

SAMURAI 最新流量情况

SAMURAI 访问量趋势

SAMURAI 访问地理位置分布

SAMURAI 流量来源

SAMURAI 替代品

R1-V — 低成本强化视觉语言模型的泛化能力，仅需不到3美元。

Verizon AI Connect — Verizon AI Connect 是一套用于管理和扩展 AI 资源密集型工作负载的策略和产品解决方案。

X-Dyna — X-Dyna是一种基于扩散模型的零样本人类图像动画生成技术。

Meta Motivo — 首款基于行为基础模型的虚拟物理人形代理控制工具

Diffusion Self-Distillatio — 一种用于零样本定制图像生成的扩散自蒸馏技术

Voicv — 克隆你的声音，就像 Ctrl+C, Ctrl+V

PromptFix — 根据人类指令修复和编辑照片的框架

ROCKET-1 — 掌握开放世界交互的视觉-时间上下文提示模型

MaskGCT — 无需对齐信息的零样本文本到语音转换模型

Whisper large-v3-turbo — 高效自动语音识别模型

Omni-Zero-Couples — 零样本风格化情侣肖像创作

Seed-Music — 音乐生成系统，支持多语言声乐生成和音乐编辑。

seed-vc — 零样本声音转换技术，实现音质与音色的高保真转换。

Segment Anything Model 2 — 一种用于图像和视频的视觉分割基础模型。

ManiWAV — 学习野外音频视觉数据的机器人操控

SenseVoice — 多语种语音理解模型，提供高精度语音识别与情感识别。

Indexify — 实时数据提取和检索框架

PAB — 实时视频生成技术

MimicBrush — 零样本图像编辑，一键模仿参考图像风格

StreamV2V — 实时视频到视频翻译的扩散模型

LookOnceToHear — 实时语音提取智能耳机交互系统

Slicedit — 基于文本的视频编辑技术，使用时空切片。

Multi-modal Large Language Models — 提供全面的MLLMs评估

StreamVoice — 实时零唇语音转换的流式上下文感知语言建模

OpenVoice — 开源的实时语音克隆技术

InstructVideo — 文本到视频的指导生成模型

GLEE — 图片和视频的通用对象基础模型

Cola — 大型语言模型是视觉推理协调器