Am 16. Januar 2025 gab die Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. die offizielle Einführung ihres selbst entwickelten Inferenzmodells Step Reasoner mini (kurz „Step R-mini“) bekannt. Benutzer können sich über die Yuewen-Webseite https://yuewen.cn anmelden und in der oberen linken Ecke „Step R-mini“ auswählen, um es auszuprobieren.
Step R-mini ist das erste Inferenzmodell der Step-Modellfamilie und zeichnet sich durch seine Fähigkeit zur aktiven Planung, zum Experimentieren und zur Reflexion aus. Durch einen langsamen Denkprozess und wiederholte Validierung bietet es dem Benutzer präzise und zuverlässige Antworten. Es kann nicht nur komplexe Probleme in den Bereichen Logik, Code und Mathematik durch seine außergewöhnliche Inferenzfähigkeit lösen, sondern auch allgemeine Bereiche wie literarisches Schreiben abdecken.
Die von Jieyue Xingchen selbst entwickelte Step-Modellmatrix umfasst bereits umfassende Fähigkeiten in den Bereichen Sprache, Multimodalität und Inferenz. Bei mathematischen Benchmark-Tests wie AIME und Math übertraf Step R-mini die Ergebnisse von o1-preview und erreichte ein Niveau vergleichbar mit OpenAI o1-mini. Bei LiveCodeBench-Codeaufgaben erzielte es sogar bessere Ergebnisse als o1-preview. Es ist erwähnenswert, dass die meisten Inferenzmodelle Schwierigkeiten haben, sowohl naturwissenschaftliche als auch geisteswissenschaftliche Fähigkeiten zu vereinen. Step R-mini hingegen erreicht durch umfangreiches Reinforcement Learning und den Einsatz des On-Policy-Algorithmus eine „beidseitige Kompetenz“: Es beantwortet präzise Fragen aus Mathematik, Code und Logik und kann gleichzeitig kreativ literarische Texte verfassen und alltägliche Konversationen führen.
In der Praxis zeigt Step R-mini hervorragende Ergebnisse. Bei der Lösung mathematischer Aufgaben, selbst komplexer olympischer Mathematikaufgaben, erstellt es eine logische Argumentationskette, plant die Lösung komplexer mathematischer Probleme schrittweise und verifiziert verschiedene Lösungsansätze durch Kreuzprüfung. Bei geometrischen Aufgaben erstellt es eigenständig Skizzen, um den Denkprozess zu veranschaulichen. Bei logischen Aufgaben probiert es verschiedene Lösungsansätze aus und hinterfragt sich selbst, um sicherzustellen, dass alle optimalen Lösungen gefunden werden. Im Bereich der Codeaufgaben löst es korrekt Algorithmusaufgaben mit dem Schwierigkeitsgrad „Hard“ auf der Plattform LeetCode und kann auch komplexe Entwicklungsanforderungen bewältigen, indem es die Benutzeranforderungen und -absichten schrittweise analysiert und die Codelogik erstellt. Im Bereich der Textproduktion versteht es die Anforderungen des Benutzers tiefgehend, analysiert Themen, literarische Genres und andere Anforderungen, überlegt den Ansatz, beschreibt Szenen, verwendet rhetorische Mittel und strukturiert den Inhalt, verleiht Objekten eine symbolische Bedeutung auf menschlicher Ebene und fügt einen individuellen und innovativen Ausdrucksstil hinzu. Bei Übersetzungen folgt es dem Prinzip der „Genauigkeit, Flüssigkeit und Natürlichkeit“ und strebt nach präzisen und aussagekräftigen Ergebnissen.
Neben dem sprachbasierten Inferenzmodell entwickelt Jieyue Xingchen auch ein visuelles Inferenzmodell, um Inferenzfähigkeiten in größere Modelle mit vielfältigeren Interaktionsformen zu integrieren. Für Reasoning-Probleme in komplexen visuellen Szenarien werden die Konzepte des langsamen Wahrnehmens und des räumlichen Denkens eingeführt, wobei Test-Time Scaling vom Textraum in den visuellen Raum übertragen wird, um Spatial-Slow-Thinking im visuellen Raum zu ermöglichen. Das visuelle Inferenzmodell hat bereits Zwischenziele erreicht, und die offizielle Version wird voraussichtlich noch in diesem Jahr veröffentlicht.