Phi-4-multimodal-instruct
Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。
プレミアム新製品生産性マルチモーダル音声認識
Phi-4-multimodal-instructは、Microsoftが開発したマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートし、テキスト出力を生成します。本モデルは、Phi-3.5とPhi-4.0の研究とデータセットに基づいて構築され、教師あり微調整、直接選好最適化、人間のフィードバックによる強化学習などのプロセスを経て、指示遵守能力と安全性向上を図っています。多言語のテキスト、画像、音声入力をサポートし、128Kのコンテキスト長を備えています。音声認識、音声翻訳、ビジュアル質問応答など、様々なマルチモーダルタスクに適用可能です。マルチモーダル能力において顕著な向上を見せており、特に音声と視覚タスクにおいて優れた性能を発揮します。開発者に対して強力なマルチモーダル処理能力を提供し、様々なマルチモーダルアプリケーションの構築に使用できます。
Phi-4-multimodal-instruct 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44