複雑なビジュアル推論向け！Microsoftが軽量マルチモーダルオープンソースモデルPhi-3.5-visionを発表

AIbase基地

公開日AIニュース · 1 分で読めます · Aug 21, 2024

358

マイクロソフトは、軽量でマルチモーダルなオープンソースAIモデルであるPhi-3.5-visionを新たにリリースしました。これはPhi-3モデルファミリーの新たなメンバーであり、テキストとビジュアルの両方の入力を同時に処理する必要があるアプリケーション向けに設計されています。Phi-3.5-visionモデルは、メモリや計算リソースが制限された環境でも優れたパフォーマンスを発揮し、128Kのコンテキスト長をサポートしており、ビジネスや研究分野の理想的な選択肢です。

Phi-3.5-visionモデルは、幅広い画像理解、光学文字認識（OCR）、グラフや表の解析、複数の画像やビデオクリップのサマリーなどの機能を備えています。画像やビデオ処理関連のベンチマークテストでは、著しい性能向上を示しました。

Phi-3.5-visionモデルは、画像エンコーダー、コネクター、プロジェクター、Phi-3Mini言語モデルを含む、42億パラメーターのシステムで構成されています。高品質の教育データ、合成データ、厳格に選別された公開ドキュメントを使用してトレーニングされており、データの品質とプライバシーが確保されています。

Phi-3.5-visionには3つのモデルが含まれています。

Phi-3.5Mini Instruct：メモリや計算リソースが限られた環境に適した軽量なAIモデル。

Phi-3.5MoE（Mixture of Experts）：マイクロソフトが初めて導入した「専門家混合」モデルで、複雑なタスクの処理に優れています。

Phi-3.5Vision Instruct：テキストと画像処理機能を統合したマルチモーダルモデル。

主な機能特性

Phi-3.5-visionモデルの主な機能特性には、画像理解、OCR、グラフと表の理解、複数の画像の比較、複数の画像やビデオクリップのサマリー、効率的な推論能力、低遅延とメモリ最適化が含まれます。

Phi-3.5-visionは、MMMU、MMBench、TextVQA、ビデオ処理能力テスト、BLINKベンチマークテストなど、複数のベンチマークテストで優れた結果を示し、マルチモーダルおよびビジョンタスクにおける強力な性能を実証しました。

マイクロソフトPhi-3.5-visionモデルのリリースは、特にエッジでの実行と複雑なビジョン推論において、AI分野に新たな選択肢をもたらしました。そのオープンソース特性と最適化された設計により、リソースが限られた環境でも優れた性能を発揮し、さまざまなAI駆動型アプリケーションを強力にサポートします。

モデルダウンロードアドレス：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

AIの火眼金睛！Finer-CAMでAIによる画像理解をより正確に、分類をより明確に

人工知能は画像認識分野で非常に盛んです。猫や犬の分類などはもう時代遅れで、今では「連想ゲームPlus版」のような、例えばある特定の年式の特定のモデルのスポーツカーであること、あるいはある鳥の眉毛が隣の家の王さんの眉毛よりもわずかに太いかどうかなどを瞬時に識別することが流行しています。しかし、問題はあります。ニューラルネットワークは賢いのですが、「なぜこれがこれだと判断したのか？」を説明しようとすると、まるでテストで解法を説明できない生徒のように、支離滅裂でまともな説明ができません。従来のClass Activation Map（クラス活性化マップ）は…

テンセント元宝、「混元+DeepSeek」デュアルモード統合により「画像理解」スキルを提供

テンセント元宝の今回のアップグレードは、「混元+DeepSeek」デュアルモード統合技術の適用が中心です。従来、DeepSeekは主に情報抽出、いわば「スキャナー」としての役割を担っていました。しかし、テンセント混元マルチモーダル技術の活用により、今日のDeepSeekは画像の細部、雰囲気、さらには隠された意味を真に理解できるようになりました。この変化により、テンセント元宝は画像を「理解」し、独自の分析と解釈を提供できるようになりました。

阿里云通義オープンソースQwen2.5-VL、視覚AIがClaude 3.5を凌駕

阿里云通義千問は、新しいビジョンモデルQwen2.5-VLをオープンソース化し、3B、7B、72Bの3つのサイズバリアントを発表しました。その中でも、フラッグシップモデルであるQwen2.5-VL-72Bは、13の権威ある評価で視覚理解において1位を獲得し、GPT-4oとClaude 3.5を上回りました。阿里云公式の説明によると、新しいQwen2.5-VLは画像の内容をより正確に解析でき、画期的に1時間以上のビデオ理解に対応できるようになりました。このモデルはビデオ内で特定のイベントを検索し、ビデオの不…

AIニュース

複雑なビジュアル推論向け！Microsoftが軽量マルチモーダルオープンソースモデルPhi-3.5-visionを発表

AIbase基地

関連AIニュースの推奨

AIの火眼金睛！Finer-CAMでAIによる画像理解をより正確に、分類をより明確に

オープンソースOCRツールolmOCR：PDFをテキストへ高効率変換、表と手書き文字も認識

テンセント元宝、「混元+DeepSeek」デュアルモード統合により「画像理解」スキルを提供

阿里云通義オープンソースQwen2.5-VL、視覚AIがClaude 3.5を凌駕