Microsoft hat kürzlich auf der Hugging Face Plattform ein kleines Sprachmodell namens Phi-4 veröffentlicht. Dieses Modell verfügt über lediglich 14 Milliarden Parameter, zeigt aber in zahlreichen Leistungstests eine hervorragende Performance und übertrifft viele bekannte Modelle, darunter OpenAIs GPT-4o und andere Open-Source-Modelle wie Qwen2.5 und Llama-3.1.

image.png

Beim amerikanischen Mathematik-Wettbewerb AMC erzielte Phi-4 einen bemerkenswerten Score von 91,8 Punkten und übertraf damit deutlich Konkurrenten wie Gemini Pro1.5 und Claude3.5Sonnet. Noch überraschender ist das Ergebnis im MMLU-Test mit 84,8 Punkten, was die beeindruckenden Schlussfolgerungs- und mathematischen Fähigkeiten des Modells unterstreicht.

image.png

Im Gegensatz zu vielen Modellen, die auf organische Datenquellen angewiesen sind, verwendet Phi-4 innovative Methoden zur Generierung hochwertiger synthetischer Daten, darunter Multi-Agent-Prompts, umgekehrte Anweisungen und Selbstkorrektur. Diese Methoden verbessern die Fähigkeiten von Phi-4 im Bereich des logischen Denkens und der Problemlösung erheblich und ermöglichen die Bearbeitung komplexerer Aufgaben.

Phi-4 verwendet eine reine Decoder-Transformer-Architektur und unterstützt eine Kontextlänge von bis zu 16k Token, was es ideal für die Verarbeitung großer Eingaben macht. Während des Pretrainings wurden etwa 10 Billionen Token verwendet, eine Kombination aus synthetischen Daten und sorgfältig ausgewählten organischen Daten, um eine hervorragende Leistung in Benchmarks wie MMLU und HumanEval zu gewährleisten.

Zu den Eigenschaften und Vorteilen von Phi-4 gehören: Kompaktheit und Effizienz für die Verwendung auf Consumer-Hardware; überragende Schlussfolgerungsfähigkeiten in STEM-bezogenen Aufgaben im Vergleich zu Vorgängermodellen und größeren Modellen; Unterstützung für Fine-tuning mit diversen synthetischen Datensätzen zur Anpassung an spezifische Anwendungsbereiche. Darüber hinaus bietet Phi-4 auf der Hugging Face Plattform eine detaillierte Dokumentation und eine API für eine einfache Integration durch Entwickler.

Die technischen Innovationen von Phi-4 basieren auf drei Säulen: Multi-Agent- und Selbstkorrekturtechniken zur Generierung synthetischer Daten; Methoden zur Verbesserung des Trainings, wie z. B. Rejection Sampling und Direct Preference Optimization (DPO); und streng gefilterte Trainingsdaten, um die Überlappung mit Benchmark-Daten zu minimieren und die Generalisierungsfähigkeit des Modells zu verbessern. Zusätzlich nutzt Phi-4 die Schlüsseltoken-Suche (PTS), um wichtige Knoten im Entscheidungsprozess zu identifizieren und so die Fähigkeit zur Bewältigung komplexer Schlussfolgerungsaufgaben zu optimieren.

image.png

Mit der Open-Source-Veröffentlichung von Phi-4 geht ein lang gehegter Wunsch vieler Entwickler in Erfüllung. Das Modell kann nicht nur auf der HuggingFace-Plattform heruntergeladen werden, sondern ist auch für kommerzielle Zwecke unter der MIT-Lizenz nutzbar. Diese offene Lizenzpolitik hat großes Interesse bei Entwicklern und AI-Enthusiasten geweckt, und HuggingFace hat dies in den sozialen Medien mit Glückwünschen und der Bezeichnung als „bestes 14B-Modell aller Zeiten“ gefeiert.

Modellzugang: https://huggingface.co/microsoft/phi-4

Wichtigste Punkte:

🧠 ** Microsoft präsentiert Phi-4, ein kleines Sprachmodell mit nur 14 Milliarden Parametern, das dennoch zahlreiche bekannte Modelle übertrifft.**

📊 ** Phi-4 zeigt in verschiedenen Leistungstests herausragende Ergebnisse, insbesondere in Mathematik und logischem Denken.**

🌐 Phi-4 ist nun Open Source und für kommerzielle Zwecke verfügbar, was großes Interesse bei Entwicklern hervorgerufen hat.