Depth Anything

释放大规模未标记数据的力量

中文精选图像深度估计图像处理

Depth Anything是一个高度实用的解决方案，用于稳健的单目深度估计。我们旨在构建一个简单而强大的基础模型，处理任何情况下的任何图像，而不追求新颖的技术模块。为此，我们通过设计数据引擎来扩大数据集，收集并自动注释大规模未标记数据（约62M），从而显着扩大数据覆盖范围，从而能够减少泛化误差。我们研究了两种简单而有效的策略，使数据扩展变得有前途。首先，通过利用数据增强工具创建更具挑战性的优化目标。它迫使模型积极寻求额外的视觉知识并获得强大的表示。其次，开发了辅助监督，以强制模型从预训练编码器中继承丰富的语义先验。我们对其零-shot能力进行了广泛评估，包括六个公共数据集和随机拍摄的照片。它展现出令人印象深刻的泛化能力。此外，通过使用来自NYUv2和KITTI的度量深度信息对其进行微调，我们建立了新的SOTAs。我们更好的深度模型也导致更好的深度条件ControlNet。我们的模型发布在https://github.com/LiheYoung/Depth-Anything。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Depth Anything

Depth Anything 最新流量情况

Depth Anything 访问量趋势

Depth Anything 访问地理位置分布

Depth Anything 流量来源

Depth Anything 替代品

Depth Anything — 释放大规模未标记数据的力量

Depth Anything V2 — 先进的单目深度估计模型

Control-LoRA — 基于低秩参数优化的模型控制技术

Dpt Depth — Dpt 深度估计 + 3D

StarVector — 生成高质量 SVG 代码的基础模型。

Thera — 一种无混叠的任意尺度超分辨率方法。

AI Watermark Remover — 一款免费在线的AI工具，可快速去除照片和视频中的水印。

Picture AI — 一款强大的在线AI图像生成与编辑工具，提供多种图像处理功能。

MIDI — 通过多实例扩散模型将单张图像生成高保真度的3D场景。

HunyuanVideo-I2V — HunyuanVideo-I2V 是腾讯推出的基于 HunyuanVideo 的图像到视频生成框架。

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

olmOCR-7B-0225-preview — olmOCR-7B-0225-preview 是一个基于 Qwen2-VL-7B-Instruct 微调的文档图像识别模型，用于高效转换文档为纯文本。

VisionAgent — VisionAgent是一个用于生成代码以解决视觉任务的库，支持多种LLM提供商。

Light-A-Video — Light-A-Video 是一种无需训练的视频重光照技术，通过渐进式光照融合实现平滑的视频重光照效果。

AI Headshot Generator — 在线免费 AI 头像生成器，可将普通照片转化为高质量专业头像。

Animate Anyone 2 — Animate Anyone 2 是一款高保真角色图像动画生成工具，支持环境适配。

VisoMaster — 强大的视频替换与编辑软件，利用AI技术实现自然效果。

Genime AI — Genime AI 是一款专注于动画生成与编辑的工具，提供图像到 3D、补间动画等功能。

MatAnyone — MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

Video Depth Anything — Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

美间AI无损放大 — 美间AI无损放大，一键提升图片清晰度，让图像放大不失真

MangaNinja — MangaNinja 是一种基于参考的线稿上色方法，可实现精确匹配和细粒度交互控制。

googleocr-app — 一个基于Google Gemini 2.0的高精度OCR文字识别应用。

Shapen — 将图像转换为3D模型，可用于渲染、动画或3D打印。

美图云修 — 专业级AI人像精修，极速出片，极致效果。

StructLDM — 一种从2D图像学习3D人体生成的结构化潜在扩散模型。

FitDiT — FitDiT 是一种用于高保真虚拟试衣的新型服装感知增强技术。

Hallo3 — 一种基于扩散变换器网络的高动态、逼真肖像图像动画技术。