Microsoft hat kürzlich seine Phi-4-Familie um zwei neue Modelle erweitert: Phi-4-Multimodal und Phi-4-Mini. Diese Modelle bieten eine deutlich verbesserte Verarbeitungsleistung für diverse KI-Anwendungen.
Phi-4-Multimodal ist Microsofts erstes einheitliches Architekturmodell, das Sprach-, Bild- und Textverarbeitung integriert und über 56 Millionen Parameter verfügt. In zahlreichen Benchmark-Tests übertraf es viele Wettbewerber, darunter Googles Gemini 2.0-Serie. Besonders hervorzuheben sind die Leistungen in der automatischen Spracherkennung (ASR) und der Sprachübersetzung (ST), wo es Modelle wie Whisper V3 und SeamlessM4T-v2-Large übertraf und mit einer Wortfehlerquote von 6,14 % den ersten Platz in der Hugging Face OpenASR-Rangliste belegte.
Auch in der Bildverarbeitung zeigt Phi-4-Multimodal beeindruckende Ergebnisse. Seine Fähigkeiten in Mathematik und wissenschaftlichem Denken sind bemerkenswert; es versteht Dokumente und Diagramme und führt die optische Zeichenerkennung (OCR) effektiv durch. Im Vergleich zu populären Modellen wie Gemini-2-Flash-lite-preview und Claude-3.5-Sonnet schneidet es mindestens gleich gut, oft sogar besser ab.
Das ebenfalls neue Phi-4-Mini-Modell konzentriert sich auf Textverarbeitungsaufgaben und verfügt über 38 Millionen Parameter. Es zeichnet sich in Textverständnis, mathematischen Berechnungen, Programmierung und der Befolgung von Anweisungen aus und übertrifft viele gängige große Sprachmodelle. Um Sicherheit und Zuverlässigkeit zu gewährleisten, wurde das Modell von internen und externen Sicherheitsexperten umfassend getestet und nach den Standards von Microsofts AI Red Team (AIRT) optimiert.
Beide neuen Modelle lassen sich über ONNX Runtime auf verschiedenen Geräten einsetzen und eignen sich für kostengünstige und latenzarme Anwendungen. Sie sind bereits in Azure AI Foundry, Hugging Face und dem NVIDIA API-Katalog verfügbar.
Die neuen Modelle der Phi-4-Serie markieren einen bedeutenden Fortschritt von Microsoft im Bereich effizienter KI-Technologien und eröffnen neue Möglichkeiten für zukünftige KI-Anwendungen.