Florence-2-base

先进的视觉基础模型，支持多种视觉和视觉-语言任务。

普通产品图像视觉模型多任务学习

Florence-2是由微软开发的高级视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示，执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集，精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色，证明其为有竞争力的视觉基础模型。

Best AI Websites & Tools

Florence-2-base

Florence-2-base 最新流量情况

Florence-2-base 访问量趋势

Florence-2-base 访问地理位置分布

Florence-2-base 流量来源

Florence-2-base 替代品

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

Pixtral-12B-2409 — 多模态12B参数模型，结合视觉编码器处理图像和文本。

X Model — 玩转热门主流 AI 模型，并接入在你的产品中

Gemma-2-9b-it — 轻量级、先进的文本生成模型

Florence-2-base-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务

Florence-2-large-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

Florence-2-large — 先进的视觉基础模型，支持多种视觉和视觉-语言任务

Florence-2 — 一种统一的视觉任务基础模型。

llama3v — 基于llama3 8B的SOTA视觉模型

VMamba — 视觉状态空间模型，线性复杂度，全局感知

Assistiv.AI — Assistiv.AI:人工智能辅助平台

Clevis — 无需编写代码，构建和销售 AI 驱动的应用

VisionAgent — VisionAgent是一个用于生成代码以解决视觉任务的库，支持多种LLM提供商。

Light-A-Video — Light-A-Video 是一种无需训练的视频重光照技术，通过渐进式光照融合实现平滑的视频重光照效果。

AI Headshot Generator — 在线免费 AI 头像生成器，可将普通照片转化为高质量专业头像。

Animate Anyone 2 — Animate Anyone 2 是一款高保真角色图像动画生成工具，支持环境适配。

VisoMaster — 强大的视频替换与编辑软件，利用AI技术实现自然效果。

s1-32B — s1是一个基于Qwen2.5-32B-Instruct微调的推理模型，仅用1000个样本进行训练。

Genime AI — Genime AI 是一款专注于动画生成与编辑的工具，提供图像到 3D、补间动画等功能。

Xwen-Chat — Xwen-Chat是专注中文对话的大语言模型集合，提供多版本模型及语言生成服务

MatAnyone — MatAnyone 是一个支持目标指定的稳定视频抠像框架，适用于复杂背景。

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型，适用于多种推理和生成任务。

DeepSeek-R1-Distill-Qwen-32B — DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型，适用于多种文本生成任务。

AI ContentCraft — AI ContentCraft 是一个多功能内容创作工具，集成了文本生成、语音合成和图像生成能力。

Textoon — Textoon 是一款基于文本描述生成生动 2D 卡通角色的创新工具。

美间AI无损放大 — 美间AI无损放大，一键提升图片清晰度，让图像放大不失真

InternLM3 — InternLM3 是一个专注于文本生成的模型集合，提供多种优化版本以满足不同需求。