Florence-2-base-ft

先进的视觉基础模型，支持多种视觉和视觉-语言任务

普通产品图像图像处理视觉-语言模型

Florence-2是由微软开发的高级视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示，执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集，包含54亿个注释，覆盖1.26亿张图像，精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色，证明是一个有竞争力的视觉基础模型。

Best AI Websites & Tools

Florence-2-base-ft

Florence-2-base-ft 最新流量情况

Florence-2-base-ft 访问量趋势

Florence-2-base-ft 访问地理位置分布

Florence-2-base-ft 流量来源

Florence-2-base-ft 替代品

Florence-2-large-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

Florence-2-base — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

VisionAgent — VisionAgent是一个用于生成代码以解决视觉任务的库，支持多种LLM提供商。

Light-A-Video — Light-A-Video 是一种无需训练的视频重光照技术，通过渐进式光照融合实现平滑的视频重光照效果。

AI Headshot Generator — 在线免费 AI 头像生成器，可将普通照片转化为高质量专业头像。

Animate Anyone 2 — Animate Anyone 2 是一款高保真角色图像动画生成工具，支持环境适配。

VisoMaster — 强大的视频替换与编辑软件，利用AI技术实现自然效果。

Genime AI — Genime AI 是一款专注于动画生成与编辑的工具，提供图像到 3D、补间动画等功能。

MatAnyone — MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

美间AI无损放大 — 美间AI无损放大，一键提升图片清晰度，让图像放大不失真

MangaNinja — MangaNinja 是一种基于参考的线稿上色方法，可实现精确匹配和细粒度交互控制。

googleocr-app — 一个基于Google Gemini 2.0的高精度OCR文字识别应用。

Shapen — 将图像转换为3D模型，可用于渲染、动画或3D打印。

美图云修 — 专业级AI人像精修，极速出片，极致效果。

StructLDM — 一种从2D图像学习3D人体生成的结构化潜在扩散模型。

FitDiT — FitDiT 是一种用于高保真虚拟试衣的新型服装感知增强技术。

Hallo3 — 一种基于扩散变换器网络的高动态、逼真肖像图像动画技术。

SVFR — SVFR是一个用于视频人脸修复的统一框架。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

PaliGemma2-3b-pt-224 — PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。

PaliGemma2-3b-pt-448 — PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

STAR — STAR是一种用于真实世界视频超分辨率的时空增强框架，首次将强大的文本到视频扩散先验集成到真实世界视频超分辨率中。

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

SHMT — 一种基于潜在扩散模型的自监督层次化化妆迁移技术

百度AI搜 — 智能搜索平台，集成多种AI服务

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

Llama-3.1-70B-Instruct-AWQ-INT4 — 70B参数的文本生成模型