マイクロソフトは、軽量でマルチモーダルなオープンソースAIモデルであるPhi-3.5-visionを新たにリリースしました。これはPhi-3モデルファミリーの新たなメンバーであり、テキストとビジュアルの両方の入力を同時に処理する必要があるアプリケーション向けに設計されています。Phi-3.5-visionモデルは、メモリや計算リソースが制限された環境でも優れたパフォーマンスを発揮し、128Kのコンテキスト長をサポートしており、ビジネスや研究分野の理想的な選択肢です。
Phi-3.5-visionモデルは、幅広い画像理解、光学文字認識(OCR)、グラフや表の解析、複数の画像やビデオクリップのサマリーなどの機能を備えています。画像やビデオ処理関連のベンチマークテストでは、著しい性能向上を示しました。
Phi-3.5-visionモデルは、画像エンコーダー、コネクター、プロジェクター、Phi-3Mini言語モデルを含む、42億パラメーターのシステムで構成されています。高品質の教育データ、合成データ、厳格に選別された公開ドキュメントを使用してトレーニングされており、データの品質とプライバシーが確保されています。
Phi-3.5-visionには3つのモデルが含まれています。
Phi-3.5Mini Instruct:メモリや計算リソースが限られた環境に適した軽量なAIモデル。
Phi-3.5MoE(Mixture of Experts):マイクロソフトが初めて導入した「専門家混合」モデルで、複雑なタスクの処理に優れています。
Phi-3.5Vision Instruct:テキストと画像処理機能を統合したマルチモーダルモデル。
主な機能特性
Phi-3.5-visionモデルの主な機能特性には、画像理解、OCR、グラフと表の理解、複数の画像の比較、複数の画像やビデオクリップのサマリー、効率的な推論能力、低遅延とメモリ最適化が含まれます。
Phi-3.5-visionは、MMMU、MMBench、TextVQA、ビデオ処理能力テスト、BLINKベンチマークテストなど、複数のベンチマークテストで優れた結果を示し、マルチモーダルおよびビジョンタスクにおける強力な性能を実証しました。
マイクロソフトPhi-3.5-visionモデルのリリースは、特にエッジでの実行と複雑なビジョン推論において、AI分野に新たな選択肢をもたらしました。そのオープンソース特性と最適化された設計により、リソースが限られた環境でも優れた性能を発揮し、さまざまなAI駆動型アプリケーションを強力にサポートします。
モデルダウンロードアドレス:https://huggingface.co/microsoft/Phi-3.5-vision-instruct