Phi-4-multimodal-instruct
Phi-4-multimodal-instruct ist ein leichtgewichtiges, multimodales Basismodell von Microsoft, das Text-, Bild- und Audioeingaben unterstützt.
Premium-NeuproduktProduktivitätMultimodalSpracherkennung
Phi-4-multimodal-instruct ist ein von Microsoft entwickeltes multimodales Basismodell, das Text-, Bild- und Audioeingaben unterstützt und Textausgaben generiert. Das Modell basiert auf den Forschungsarbeiten und Datensätzen von Phi-3.5 und Phi-4.0 und wurde durch überwachtes Feintuning, direkte Präferenzoptimierung und Reinforcement Learning from Human Feedback (RLHF) verbessert, um die Befolgung von Anweisungen und die Sicherheit zu erhöhen. Es unterstützt mehrsprachige Text-, Bild- und Audioeingaben, verfügt über eine Kontextlänge von 128K und eignet sich für verschiedene multimodale Aufgaben wie Spracherkennung, Sprachübersetzung und visuelle Frage-Antwort-Systeme. Das Modell zeigt eine deutliche Verbesserung der multimodalen Fähigkeiten, insbesondere bei Sprach- und Sehaufgaben. Es bietet Entwicklern leistungsstarke Multimodalitätsfunktionen für die Erstellung verschiedener multimodaler Anwendungen.
Phi-4-multimodal-instruct Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44