2025年1月16日、上海階躍星辰智能科技有限公司は、自社開発の推論モデルStep Reasoner mini(略称「Step R-mini」)の正式リリースを発表しました。ユーザーは躍問ウェブページ(https://yuewen.cn)にアクセスし、左上の「Step R-mini」を選択して体験できます。

Step R-miniはStepシリーズモデルファミリーの最初の推論モデルであり、主体的な計画、試行、反省に長けています。ゆっくりとした思考と繰り返し検証による論理メカニズムを通じて、ユーザーに正確で信頼性の高い回答を提供します。複雑な論理推論、コード、数学の問題を解決する超長推論能力だけでなく、文学創作などの一般的な分野にも対応できます。

階躍星辰が自社開発したStepシリーズ基盤モデルマトリックスは、言語、マルチモーダルから推論までの包括的な能力を網羅しています。AIMEやMathなどの数学基準テストでは、Step R-miniはo1-previewを上回り、OpenAI o1-miniに匹敵する成績を収めました。LiveCodeBenchコードタスクでも、o1-previewよりも優れた成果を示しました。特筆すべきは、多くの推論モデルが文理両方の能力を両立させるのが難しい中、Step R-miniは大規模な強化学習トレーニングとOn-Policy(オンポリシー)強化学習アルゴリズムを用いることで、「文理兼修」を実現し、数学、コード、論理推論の問題を正確に解答できるだけでなく、創造的な文学作品の作成や日常会話のタスクにも対応できる点です。

微信截图_20250116133149.png

実際の応用において、Step R-miniは優れた効果を発揮しています。数学の問題を解く際には、難しい算数問題に対しても、合理的な推論チェーンを構築し、複雑な数学問題の計画と段階的な解法を実現し、異なる解法を列挙して相互検証を行います。幾何学の問題を扱う際には、積極的に草図を描いて深い思考のための媒体を構築します。論理推論タスクでは、様々な解法を試行し、自問自答することで、すべての最適な解決策を列挙します。コードの問題では、LeetCode技術プラットフォームで難易度「Hard」と評価されているアルゴリズム問題を正しく解答できるだけでなく、複雑な開発ニーズにも対応し、ユーザーのニーズと意図を段階的に分析してコードロジックを構築します。コンテンツ作成においては、ユーザーの表現ニーズを深く理解し、創作テーマ、文学的な題材などの要求を分析し、創作のアングル、情景描写、修辞技法、内容構成を考え、物事に人間的情感的な象徴的な意味を与え、個性的な革新的な表現スタイルを加えます。翻訳の問題では、「信達雅」の原則に従い、正確で意味豊かな翻訳結果を提供することに努めています。

階躍星辰は、言語推論モデルに加えて、視覚推論モデルも開発中で、より多くのインタラクティブな形態の大規模モデルに推論能力を統合しようとしています。複雑な視覚シーンにおけるReasoning問題に対して、遅い知覚と空間推論の考え方を導入し、Test-Time Scalingをテキスト空間から視覚空間へと移行させ、視覚空間におけるSpatial-Slow-Thinkingを実現しています。現在、視覚推論モデルは段階的な成果を上げており、正式版は今年中に公開予定です。