Récemment, Microsoft a élargi la famille Phi-4 avec deux nouveaux modèles : Phi-4 multimodale et Phi-4 mini. Ces modèles offrent des capacités de traitement considérablement améliorées pour une large gamme d'applications d'IA.

Phi-4 multimodale est le premier modèle d'architecture unifiée de Microsoft intégrant le traitement de la voix, de la vision et du texte, avec 56 millions de paramètres. Ce modèle a démontré d'excellentes performances dans plusieurs tests de référence, surpassant de nombreux concurrents sur le marché, tels que la série Gemini 2.0 de Google. Il excelle particulièrement dans la reconnaissance automatique de la parole (ASR) et la traduction vocale (ST), battant des modèles spécialisés comme Whisper V3 et SeamlessM4T-v2-Large. Avec un taux d'erreur de 6,14 %, il occupe la première place du classement Hugging Face OpenASR.

En traitement d'images, Phi-4 multimodale est également remarquable. Ses capacités de raisonnement mathématique et scientifique sont impressionnantes, permettant une compréhension efficace des documents, des graphiques et la réalisation de la reconnaissance optique de caractères (OCR). Ses performances sont comparables, voire supérieures, à celles de modèles populaires tels que Gemini-2-Flash-lite-preview et Claude-3.5-Sonnet.

Le modèle Phi-4 mini, quant à lui, se concentre sur le traitement du texte avec 38 millions de paramètres. Il excelle dans le raisonnement textuel, le calcul mathématique, la programmation et le suivi d'instructions, surpassant plusieurs grands modèles linguistiques populaires. Pour garantir la sécurité et la fiabilité des nouveaux modèles, Microsoft a fait appel à des experts en sécurité internes et externes pour des tests complets, optimisés selon les normes de l'équipe rouge d'intelligence artificielle de Microsoft (AIRT).

Ces deux nouveaux modèles peuvent être déployés sur différents appareils via ONNX Runtime, adaptés à de nombreuses applications à faible coût et faible latence. Ils sont disponibles sur Azure AI Foundry, Hugging Face et le catalogue d'API NVIDIA.

Sans aucun doute, les nouveaux modèles de la série Phi-4 marquent une avancée majeure de Microsoft dans les technologies d'IA efficaces, ouvrant de nouvelles possibilités pour les applications d'intelligence artificielle futures.