ODIN Model

单一模型实现2D和3D感知

普通产品图像计算机视觉实例分割

ODIN（Omni-Dimensional INstance segmentation）是一个模型，可以使用转换器架构在2D RGB图像和3D点云上进行分割和标记。它通过在2D视图内和3D视图之间交替融合信息来区分2D和3D特征操作。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上实现了最先进的性能，并在ScanNet、S3DIS和COCO上实现了竞争性能。当使用来自3D网格的采样点云代替感知的3D点云时，它超过了以往所有的作品。作为可指导的具体化代理架构中的3D感知引擎时，它在TEACh对话动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站找到。

Best AI Websites & Tools

ODIN Model

ODIN Model 最新流量情况

ODIN Model 访问量趋势

ODIN Model 访问地理位置分布

ODIN Model 流量来源

ODIN Model 替代品

YOLOv8 — YOLOv8目标检测跟踪模型

Pippo — Pippo 是一个从单张照片生成高分辨率多人视角视频的生成模型。

VideoWorld — VideoWorld是一个探索从无标签视频中学习知识的深度生成模型。

Video Depth Anything — Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

ViTPose — 基于Transformer实现的ViTPose模型集合

Diffusion as Shader — 一种支持多种视频生成控制任务的统一架构模型。

TryOffAnyone — 从穿着人身上生成平铺布料的模型

FlagAI — 一站式大模型算法、模型及优化工具开源项目

video-analyzer — 视频分析工具，结合Llama视觉模型和OpenAI Whisper进行本地视频描述生成。

MegaSaM — 从日常动态视频中快速、准确地估计相机和密集结构

NVIDIA Jetson Orin Nano Super Developer Kit — NVIDIA推出的最经济的生成型AI超级计算机

Diffusion-Vas — 视频非可见物体分割与内容补全的先进研究

StableAnimator — 高质量身份保留的人像动画合成工具。

CHOIS — 基于条件扩散模型的人类-物体交互合成技术

PSHuman — 从单张图片重建逼真的3D人体模型

text-to-pose — 基于文本生成姿态并进一步生成图像的模型

Phantomy AI — 未来演示控制的手势识别技术

DINO-X — 面向开放世界的检测与理解统一视觉模型

Data Annotation Platform — 数据标注平台，助力AI项目高效管理数据标注项目。

AutoSeg-SAM2 — 基于Segment-Anything-2和Segment-Anything-1的自动全视频分割工具

TurboLens — 一站式OCR代理，快速从图像中生成洞见。

LLaMA-Mesh — 3D网格生成与语言模型的统一

CountAnything — 使用先进计算机视觉算法进行自动、准确计数的应用。

NVIDIA AI Blueprint — 利用NVIDIA AI构建视频搜索和摘要代理

GenXD — 生成任何3D和4D场景的先进框架

Tencent-Hunyuan-Large — 业界领先的开源大型混合专家模型

Flex3D — 从单张图片或文本提示生成高质量3D资产

StableDelight — 去除镜面反射，揭示隐藏纹理

Colorful Diffuse Intrinsic Image Decomposition — 一种在野外环境中分解图像为反射率和照明效果的技术。