Phi-4-multimodal-instruct

Phi-4-multimodal-instruct ist ein leichtgewichtiges, multimodales Basismodell von Microsoft, das Text-, Bild- und Audioeingaben unterstützt.

Premium-NeuproduktProduktivitätMultimodalSpracherkennung
Phi-4-multimodal-instruct ist ein von Microsoft entwickeltes multimodales Basismodell, das Text-, Bild- und Audioeingaben unterstützt und Textausgaben generiert. Das Modell basiert auf den Forschungsarbeiten und Datensätzen von Phi-3.5 und Phi-4.0 und wurde durch überwachtes Feintuning, direkte Präferenzoptimierung und Reinforcement Learning from Human Feedback (RLHF) verbessert, um die Befolgung von Anweisungen und die Sicherheit zu erhöhen. Es unterstützt mehrsprachige Text-, Bild- und Audioeingaben, verfügt über eine Kontextlänge von 128K und eignet sich für verschiedene multimodale Aufgaben wie Spracherkennung, Sprachübersetzung und visuelle Frage-Antwort-Systeme. Das Modell zeigt eine deutliche Verbesserung der multimodalen Fähigkeiten, insbesondere bei Sprach- und Sehaufgaben. Es bietet Entwicklern leistungsstarke Multimodalitätsfunktionen für die Erstellung verschiedener multimodaler Anwendungen.
Website öffnen

Phi-4-multimodal-instruct Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

Phi-4-multimodal-instruct Besuchstrend

Phi-4-multimodal-instruct Geografische Verteilung der Besuche

Phi-4-multimodal-instruct Traffic-Quellen

Phi-4-multimodal-instruct Alternativen