Florence-2-large

先进的视觉基础模型，支持多种视觉和视觉-语言任务

普通产品图像视觉模型多任务学习

Florence-2-large是由微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集，精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色，证明是一个有竞争力的视觉基础模型。

Best AI Websites & Tools

Florence-2-large

Florence-2-large 最新流量情况

Florence-2-large 访问量趋势

Florence-2-large 访问地理位置分布

Florence-2-large 流量来源

Florence-2-large 替代品

Florence-2-base — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

Florence-2 — 一种统一的视觉任务基础模型。

Agentic Object Detection — 基于推理驱动的目标检测技术，通过文本提示实现类似人类精度的检测。

MILS — LLMs 无需任何培训就能看见和听见

SmolVLM-500M-Instruct — SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

PaliGemma2-3b-pt-224 — PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。

PaliGemma2-3b-pt-448 — PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

PicWordify — 自动化为网站图片生成描述性文本

Document Inlining — 利用复合AI技术，将文档内联处理，跨越模态差距。

InternViT-6B-448px-V2_5 — 基于InternViT-6B-448px-V1-5的增强版视觉模型

DINO-X — 面向开放世界的检测与理解统一视觉模型

D-FINE — D-FINE重新定义DETRs中的回归任务为细粒度分布细化。

π0 — 首款通用型机器人基础模型

GR-2 — 先进的通用机器人代理

YOLO11 — 先进的目标检测和跟踪模型

AI Describe Pictures — AI技术快速生成图片描述

ReKep — 机器人操控的时空关系关键点约束推理

Sapiens — 先进的人工智能视觉模型，专门分析和理解人类动作。

MIT MAIA — 自动化解释性代理，提升AI模型透明度

image-textualization — 自动生成丰富详细的图像描述

Gemma-2-9b-it — 轻量级、先进的文本生成模型

LongVA — 从语言到视觉的长上下文转换模型

HunyuanCaptioner — 生成高质量图像描述的AI模型

Florence-2-base-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务

Florence-2-large-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

PixelProse — 大规模图像描述数据集，提供超过16M的合成图像描述。

StreamSpeech — 实时语音翻译，跨语言沟通的桥梁。