バイトダンスは急速に発展するAI推論モデルの競争に参入し、科学、技術、工学、数学(STEM)分野に特化した新しい大規模言語モデルSeed-Thinking-v1.5を発表しました。この混合専門家(MoE)アーキテクチャを採用したモデルは、複数のベンチマークテストで優れたパフォーマンスを示し、一部の指標では業界大手製品を上回っています。

推論AIの進化

推論AI競争は、2024年9月のOpenAIによるo1モデルの発表から始まり、2025年1月のDeepSeek R1の発表によって本格化しました。現在、主要なAI企業は、「思考連鎖」推論を実行できるモデルの開発にしのぎを削っており、より包括的で妥当性の高い回答を提供しようとしています。Seed-Thinking-v1.5は、MetaのLlama4やMistralのMixtralと同様に、人気の混合専門家(MoE)アーキテクチャを採用しています。このアーキテクチャにより、モデルは2000億個のパラメータの巨大なライブラリから一度に200億個のパラメータのみを使用でき、効率性が大幅に向上します。

QQ20250414-090120.png

卓越した性能

このモデルは、AIME2024で86.7%のスコア、Codeforcesで55.0%のpass@8スコア、GPQA科学ベンチマークテストで77.3%のスコアを獲得するなど、印象的な能力を示しました。さらに注目すべきは、ARC-AGIベンチマークテストでGoogleのGemini 2.5 ProとOpenAIのo3-mini-highを上回ったことです。推論以外のタスクでは、Seed-Thinking-v1.5はDeepSeek R1よりも8.0%高い勝率を示しており、その性能上の優位性が論理や数学に集中的なタスクのみに限定されないことを示しています。

技術革新とブレークスルー

バイトダンスは、Seed-Thinking-v1.5の開発において、綿密に計画されたトレーニングデータ、高度な強化学習フレームワーク、二重報酬システム、効率的なインフラストラクチャなど、多くの革新的な技術を採用しました。彼らは40万個のサンプルを使用して教師あり微調整を行い、カスタムのアクター・クリティック(VAPO)と方策勾配(DAPO)フレームワークを使用して強化学習トレーニングにおける不安定性の問題を解決し、「シードバリデーター」と「シードシンキングバリデーター」を革新的に使用してモデル出力の品質を評価し、HybridFlowフレームワークとストリーミング展開システム(SRS)によってトレーニング効率を向上させ、強化学習サイクルの速度を3倍向上させたことが報告されています。

将来の発展と業界への影響

Seed-Thinking-v1.5は現在、ダウンロードや使用が許可されておらず、ライセンス条項も公開されていませんが、その登場は間違いなく推論AI分野の競争を激化させ、強力で効率的な大規模言語モデルの新しい基準を設定しました。このプロジェクトは、吴永辉氏率いるバイトダンスのSeed LLMシステムチームの協力による成果であり、林海濱氏が公開代表を務めています。チームは、強化学習技術の改善を続け、BeyondAIMEなどの内部ベンチマークを公開し、推論AI研究の更なる進歩を促進する予定です。