Phi-4-multimodal-instruct
Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.
Nouveau Produit PremiumProductivitéMultimodalReconnaissance vocale
Phi-4-multimodal-instruct est un modèle de base multimédia développé par Microsoft, prenant en charge les entrées texte, image et audio pour générer des sorties textuelles. Ce modèle est construit sur la base des recherches et des ensembles de données de Phi-3.5 et Phi-4.0, et a subi un réglage fin supervisé, une optimisation directe des préférences et un apprentissage par renforcement avec rétroaction humaine afin d'améliorer le respect des instructions et la sécurité. Il prend en charge les entrées texte, image et audio dans plusieurs langues, possède une longueur de contexte de 128 K et convient à diverses tâches multimodales, telles que la reconnaissance vocale, la traduction vocale et la question-réponse visuelle. Ce modèle a montré une amélioration significative de ses capacités multimodales, en particulier dans les tâches vocales et visuelles. Il offre aux développeurs de puissantes capacités de traitement multimédia, utilisables pour construire diverses applications multimodales.
Phi-4-multimodal-instruct Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44