Florence-2-large

多様なビジョンおよびビジョン・言語タスクに対応する、高度なビジョン基礎モデルです。

一般製品画像ビジョンモデルマルチタスク学習

Florence-2-largeは、マイクロソフトが開発した高度なビジョン基礎モデルです。プロンプトベースのアプローチを採用し、幅広いビジョンおよびビジョン・言語タスクに対応します。このモデルは、シンプルなテキストプロンプトを解釈して、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。5億4千万枚の画像に54億個の注釈が付いたFLD-5Bデータセットを活用し、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショットおよびファインチューニング設定の両方で優れたパフォーマンスを発揮し、競争力のあるビジョン基礎モデルであることが証明されています。

Best AI Websites & Tools

Florence-2-large

Florence-2-large 最新のトラフィック状況

Florence-2-large 訪問数の傾向

Florence-2-large 訪問地理的分布

Florence-2-large トラフィックソース

Florence-2-large 代替品

Florence-2-large — 多様なビジョンおよびビジョン・言語タスクに対応する、高度なビジョン基礎モデルです。

Florence-2-base — 様々なビジョンおよびビジョン言語タスクに対応する、高度なビジョン基礎モデルです。

エイジェンティック物体検出 — 推論駆動型の物体検出技術。テキストプロンプトを用いて、人間並みの精度で検出を実現します。

SmolVLM-500M-Instruct — SmolVLM-500Mは、軽量なマルチモーダルモデルであり、画像とテキストの入力を処理してテキスト出力を生成できます。

PaliGemma 2-3b-pt-448 — PaliGemma 2は、多様な視覚言語タスクに対応する強力な視覚言語モデルです。

InternVL2_5-26B-MPO — 視覚と言語のインタラクション能力を向上させた、多様なモダリティに対応する大規模言語モデルです。

InternVL2_5-1B-MPO — 視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

InternViT-6B-448px-V2_5 — InternViT-6B-448px-V1-5をベースとした強化版ビジョンモデル

DINO-X — オープンワールドに対応した検出と理解を統合したビジョンモデル

Claude Vision物体検出 — Claude 3.5 Sonnet Vision APIを利用した、画像内の物体検出と視覚化を行う強力なPythonツールです。

D-FINE — D-FINEは、DETRにおける回帰タスクを細粒度分布細化として再定義します。

π0 — 初の汎用ロボット基礎モデル

YOLO11 — 最先端な物体検出と追跡モデル

bonding_w_geimini — Gemini APIを用いた画像物体検出を行うStreamlitアプリケーション

Sapiens — 高度洗練されたAIビジョンモデル。人間の動作の分析と理解を専門に行います。

Florence-2-base-ft — 高度洗練されたビジョン基礎モデルであり、多様なビジョンタスクとビジョン・言語タスクに対応します。

Florence-2-large-ft — 高度高度な視覚基礎モデルであり、多様な視覚タスクと視覚言語タスクに対応します。

Florence-2 — 統一的なビジュアルタスク基礎モデルです。

StreamSpeech — リアルタイム音声翻訳、異言語コミュニケーションの架け橋。

YOLOv10： — リアルタイム・エンドツーエンド物体検出モデル

Grounding DINO 1.5 API — 最先端の世界規模物体検出モデルシリーズ

idefics-80b — 多様なモダリティに対応する汎用モデルで、質疑応答や画像キャプション生成などに利用できます。

VSP-LLM — 視覚音声処理と大規模言語モデルを組み合わせたフレームワーク

YOLOv9 — YOLOv9モデルの実装。プログラマブルな勾配情報学習が可能です。

YOLOv8 — YOLOv8物体検出追跡モデル

YOLO-World — リアルタイムオープンボキャブラリー物体検出

ActAnywhere — ActAnywhereは、主体認識ビデオ背景生成モデルです。

Emu Edit — 高精度画像編集をワンストップで実現するモデル

SEED — LLMに画像の閲覧と生成能力を付与