Florence-2-base-ft

高度洗練されたビジョン基礎モデルであり、多様なビジョンタスクとビジョン・言語タスクに対応します。

一般製品画像画像処理ビジョン・言語モデル

Florence-2は、マイクロソフトが開発した高度なビジョン基礎モデルです。プロンプトベースのアプローチを採用し、幅広いビジョンタスクとビジョン・言語タスクを処理します。このモデルは、シンプルなテキストプロンプトを解釈し、画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。54億件の注釈を含む1億2600万枚の画像からなるFLD-5Bデータセットを使用して学習されており、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショット設定とファインチューニング設定の両方で優れた性能を発揮し、競争力のあるビジョン基礎モデルであることを証明しています。

Best AI Websites & Tools

Florence-2-base-ft

Florence-2-base-ft 最新のトラフィック状況

Florence-2-base-ft 訪問数の傾向

Florence-2-base-ft 訪問地理的分布

Florence-2-base-ft トラフィックソース

Florence-2-base-ft 代替品

Florence-2-base-ft — 高度洗練されたビジョン基礎モデルであり、多様なビジョンタスクとビジョン・言語タスクに対応します。

Florence-2-large-ft — 高度高度な視覚基礎モデルであり、多様な視覚タスクと視覚言語タスクに対応します。

Florence-2-base — 様々なビジョンおよびビジョン言語タスクに対応する、高度なビジョン基礎モデルです。

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

VisionAgent — VisionAgentは、ビジョンタスクを解決するためのコードを生成するライブラリです。複数のLLMプロバイダーに対応しています。

Light-A-Video — Light-A-Videoは、トレーニング不要のビデオ再照明技術です。漸進的な照明融合により、滑らかなビデオ再照明効果を実現します。

AIヘッドショットジェネレーター — オンラインで無料で利用できるAIアバター生成ツール。普通の写真を高画質のプロフェッショナルなアバターに変換できます。

Animate Anyone 2 — Animate Anyone 2は、高忠実度なキャラクター画像アニメーション生成ツールで、環境への適応をサポートします。

VisoMaster — AI技術を活用した、自然な効果を実現する強力な動画置換・編集ソフトウェアです。

Genime AI — Genime AIは、アニメーションの生成と編集に特化したツールで、画像から3Dへの変換や、補間アニメーションなどの機能を提供します。

MatAnyone — MatAnyoneは、複雑な背景にも対応可能な、目標指定をサポートする安定したビデオマット化フレームワークです。

leapfusion-hunyuan-image2video — Hunyuanモデルに基づいた、高品質な動画生成を実現する革新的な画像から動画への変換技術です。

SmolVLM-256M-Instruct — SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

美間AI無損拡大 — 美間AI無損拡大で、ワンクリックで画像の鮮明度を向上させ、高画質で拡大できます。

MangaNinja — MangaNinjaは、参照画像を基にした線画彩色手法で、精緻なマッチングと細やかなインタラクティブ制御を実現します。

googleocr-app — Google Gemini 2.0 をベースとした高精度OCR文字認識アプリです。

Shapen — 画像を3Dモデルに変換し、レンダリング、アニメーション、3Dプリントに使用できます。

美图雲修 — プロレベルAIによる人物画像の精密修整。高速処理で、最高の効果を実現します。

StructLDM — 2D画像から3D人体生成を学習する構造化潜在拡散モデルです。

FitDiT — FitDiTは、高精度なバーチャル試着を実現する革新的な衣服感知強化技術です。

Hallo3 — 拡散変換器ネットワークに基づく、高動的でリアルな肖像画像アニメーション技術です。

SVFR — SVFRは、動画顔修復のための統一フレームワークです。

InternVL2.5-38B-MPO — InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。

STAR — STARは、実世界のビデオ超解像度のための時空間エンハンスメントフレームワークであり、強力なテキストからビデオへの拡散事前学習モデルを初めて実世界のビデオ超解像度に取り込みました。

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

SHMT — 潜在拡散モデルに基づく自己教師あり階層的メイクアップ転移技術

百度AIサーチ — 複数のAIサービスを統合したインテリジェント検索プラットフォーム

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

Llama-3.1-70B-Instruct-AWQ-INT4 — 700億パラメーターのテキスト生成モデル