Phi-4-multimodal-instruct

Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。

プレミアム新製品生産性マルチモーダル音声認識
Phi-4-multimodal-instructは、Microsoftが開発したマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートし、テキスト出力を生成します。本モデルは、Phi-3.5とPhi-4.0の研究とデータセットに基づいて構築され、教師あり微調整、直接選好最適化、人間のフィードバックによる強化学習などのプロセスを経て、指示遵守能力と安全性向上を図っています。多言語のテキスト、画像、音声入力をサポートし、128Kのコンテキスト長を備えています。音声認識、音声翻訳、ビジュアル質問応答など、様々なマルチモーダルタスクに適用可能です。マルチモーダル能力において顕著な向上を見せており、特に音声と視覚タスクにおいて優れた性能を発揮します。開発者に対して強力なマルチモーダル処理能力を提供し、様々なマルチモーダルアプリケーションの構築に使用できます。
ウェブサイトを開く

Phi-4-multimodal-instruct 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

Phi-4-multimodal-instruct 訪問数の傾向

Phi-4-multimodal-instruct 訪問地理的分布

Phi-4-multimodal-instruct トラフィックソース

Phi-4-multimodal-instruct 代替品