Florence-2

一种统一的视觉任务基础模型。

优质新品生产力视觉模型多任务学习

Florence-2是一个新型的视觉基础模型，它通过统一的、基于提示的表示方式，能够处理多种计算机视觉和视觉-语言任务。它设计为接受文本提示作为任务指令，并以文本形式生成期望的结果，无论是图像描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此，我们共同开发了FLD-5B，它包含了54亿个综合视觉注释，涵盖1.26亿张图像，使用了自动化图像注释和模型细化的迭代策略。我们采用了序列到序列的结构来训练Florence-2，以执行多样化和全面的视觉任务。广泛的评估表明，Florence-2是一个强大的视觉基础模型竞争者，具有前所未有的零样本和微调能力。

Florence-2模型适合需要处理复杂视觉任务的研究者和开发者，特别是在图像描述、目标检测、视觉定位和分割等领域。它的多任务学习能力和强大的数据处理能力，使其成为推动计算机视觉和视觉-语言研究的重要工具。

在图像描述任务中，Florence-2能够根据输入的图像生成准确的描述文本。
在目标检测任务中，Florence-2可以识别图像中的多个对象，并以文本形式报告它们的位置。
在视觉定位任务中，Florence-2能够将文本描述与图像中的特定区域关联起来。

步骤1: 访问Florence-2模型的Hugging Face页面。
步骤2: 选择适合您需求的模型版本，例如基础版或大型版。
步骤3: 阅读模型文档，了解如何使用文本提示来指导模型执行任务。
步骤4: 准备您的输入数据，可以是图像文件或与图像相关的文本描述。
步骤5: 使用模型提供的API或接口，将输入数据传递给Florence-2。

打开网站

Florence-2 最新流量情况

月总访问量

26103677

跳出率

43.69%

平均页面访问数

5.5

平均访问时长

00:04:43

Florence-2 访问量趋势

Florence-2 访问地理位置分布

Florence-2 流量来源

Florence-2 替代品

Best AI Websites & Tools

Florence-2

Florence-2 最新流量情况

Florence-2 访问量趋势

Florence-2 访问地理位置分布

Florence-2 流量来源

Florence-2 替代品

Florence-2-base — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

Florence-2-large — 先进的视觉基础模型，支持多种视觉和视觉-语言任务

Document Inlining — 利用复合AI技术，将文档内联处理，跨越模态差距。

InternViT-6B-448px-V2_5 — 基于InternViT-6B-448px-V1-5的增强版视觉模型

π0 — 首款通用型机器人基础模型

GR-2 — 先进的通用机器人代理

ReKep — 机器人操控的时空关系关键点约束推理

Sapiens — 先进的人工智能视觉模型，专门分析和理解人类动作。

MIT MAIA — 自动化解释性代理，提升AI模型透明度

Gemma-2-9b-it — 轻量级、先进的文本生成模型

LongVA — 从语言到视觉的长上下文转换模型

Florence-2-base-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务

Florence-2-large-ft — 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

StreamSpeech — 实时语音翻译，跨语言沟通的桥梁。

llama3v — 基于llama3 8B的SOTA视觉模型

Page Assist - A Web UI for Local AI Models — 利用本地 AI 模型为您提供网页浏览辅助

Pile-T5 — 基于Pile数据集训练的T5模型

LaVi-Bridge — 连接不同语言模型和生成视觉模型进行文本到图像生成

VSP-LLM — 结合视觉语音处理与大型语言模型的框架

VMamba — 视觉状态空间模型，线性复杂度，全局感知

AIM — 大规模自回归图像模型预训练

InternLM2 — 多语言预训练语言模型

Emu Edit — 精准图像编辑，一站式满足多任务需求