Florence-2-large-ftは、Microsoftが開発した高度な視覚基礎モデルです。プロンプトベースのアプローチを用いて、幅広い視覚タスクと視覚言語タスクを処理します。このモデルは、シンプルなテキストプロンプトによって、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。54億件の注釈付き1.26億枚の画像を含むFLD-5Bデータセットを活用し、マルチタスク学習を実現しています。シーケンスツーシーケンスアーキテクチャにより、ゼロショット設定とファインチューニング設定の両方で優れた性能を発揮し、競争力のある視覚基礎モデルであることを実証しています。