Phi-4-multimodal-instructは、Microsoftが開発したマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートし、テキスト出力を生成します。本モデルは、Phi-3.5とPhi-4.0の研究とデータセットに基づいて構築され、教師あり微調整、直接選好最適化、人間のフィードバックによる強化学習などのプロセスを経て、指示遵守能力と安全性向上を図っています。多言語のテキスト、画像、音声入力をサポートし、128Kのコンテキスト長を備えています。音声認識、音声翻訳、ビジュアル質問応答など、様々なマルチモーダルタスクに適用可能です。マルチモーダル能力において顕著な向上を見せており、特に音声と視覚タスクにおいて優れた性能を発揮します。開発者に対して強力なマルチモーダル処理能力を提供し、様々なマルチモーダルアプリケーションの構築に使用できます。