Step-R1-V-Mini ist ein neues multimodales Inferenzmodell von Step Star, das Bild- und Texteingabe und Textausgabe unterstützt und über eine gute Anweisungsbefolgung und allgemeine Fähigkeiten verfügt. Das Modell wurde in Bezug auf die Inferenzleistung in multi-modalen Zusammenarbeitsszenarien technisch optimiert. Es verwendet multi-modales gemeinsames verstärkendes Lernen und eine Trainingsmethode, die multi-modale synthetische Daten umfassend nutzt, um die Fähigkeit des Modells zur Verarbeitung komplexer Ketten in Bildräumen effektiv zu verbessern. Step-R1-V-Mini schneidet in mehreren öffentlichen Bestenlisten hervorragend ab, insbesondere auf der MathVision-Bestenliste für visuelle Inferenz, wo es den ersten Platz in China belegt und seine hervorragende Leistung in den Bereichen visuelle Inferenz, mathematische Logik und Code demonstriert. Das Modell wurde offiziell auf der Step AI-Webseite veröffentlicht und steht auf der Step Star Open Platform als API-Schnittstelle für Entwickler und Forscher zur Verfügung.