目覚ましい発展を遂げるテクノロジーの中で、人工知能(AI)技術は日々進化を続けています。最近、著名な大規模モデルトレーニングプラットフォームであるTogether AIとインテリジェントエージェントプラットフォームであるAgenticaが共同でオープンソース化した新モデル、DeepCoder-14B-Previewが大きな注目を集めています。
このモデルは、わずか140億パラメータながら、コードテストプラットフォームLiveCodeBenchにおいて60.6%というスコアを達成し、OpenAIのo1モデル(59.5%)を上回り、o3-mini(60.9%)に僅かに及ばない結果となりました。CodeforcesとAIME2024の評価においても優れた成績を示し、o1とo3-miniとほぼ同等の性能を発揮しています。
DeepCoderは単なる新しいモデルではありません。モデルの重み、トレーニングデータセット、トレーニング方法、トレーニングログ、最適化戦略など、豊富なオープンソースコンテンツが含まれており、開発者がモデルの開発プロセスを深く理解することを容易にしています。オープンソースアドレスと関連するGitHubリンクも公開されており、興味のある開発者は自由に探索と研究を行うことができます。
DeepCoderは、Deepseek-R1-Distilled-Qwen-14Bをベースに、分散型強化学習(RL)によって微調整されています。高品質のトレーニングデータセットを構築するために、研究チームは24,000個の検証可能なプログラミング問題を収集し、プログラム検証、テストフィルタリング、重複排除などの手順を通じてデータ品質を確保しました。すべての問題は外部の公式ソリューションによって検証されており、厳格な単体テスト基準を満たしています。
コード強化学習トレーニングにおいて、DeepCoderは単体テストを実行し、報酬を計算するために2種類のサンドボックス環境を使用しています。Together Code Interpreter環境は効率的で拡張性に優れ、大量の同時サンドボックスをサポートできます。もう一つのローカルコードサンドボックスは、既存のランキングとの整合性を確保します。
DeepCoderは報酬関数の設計において、スパースな結果報酬モデルを採用することで、モデルがテストケースを記憶して報酬を得るのではなく、高品質なコード生成に集中するようにしています。同時に、より安定したトレーニングプロセスを実現するために、改良版のGRPOアルゴリズムを採用し、反復的なコンテキスト拡張技術を導入することで、モデルの推論能力を大幅に向上させています。
エンドツーエンドのRLトレーニングを加速するために、DeepCoderチームは最適化拡張verl-pipelineもオープンソース化しました。ワンタイムパイプライン技術により、トレーニング、報酬計算、サンプリングのプロセスを完全にパイプライン化し、トレーニング効率を大幅に向上させています。
DeepCoderはオープンソース化されたばかりですが、その性能に多くのユーザーが賞賛しており、期待の持てるオープンソースプロジェクトであると評価されています。2022年に設立されたTogether AIは、高性能なAIモデルとサービスを提供することに取り組んでおり、最近3億500万ドルの資金調達を実現するなど、業界における強力な勢いを見せています。
オープンソースアドレス: https://huggingface.co/agentica-org/DeepCoder-14B-Preview
github: https://github.com/agentica-project/rllm
要点:
🌟 DeepCoder-14B-Previewモデルは優れた性能を示し、OpenAIのo1モデルを上回りました。
📈 モデルの重みとトレーニングデータを含む豊富なオープンソースコンテンツにより、開発者の研究が容易になります。
⚙️ データ品質とトレーニング効率を確保するための様々な技術により、モデルの性能が大幅に向上しました。