Dans le contexte de l'essor technologique, les techniques d'intelligence artificielle (IA) évoluent à un rythme effréné. Récemment, le nouveau modèle DeepCoder-14B-Preview, fruit d'une collaboration entre la plateforme d'entraînement de grands modèles Together AI et la plateforme d'agents intelligents Agentica, a suscité un vif intérêt.

Avec seulement 14 milliards de paramètres, ce modèle a obtenu un score de 60,6 % sur la plateforme de test de code LiveCodeBench, surpassant le modèle o1 d'OpenAI (59,5 %) et se situant légèrement en dessous de o3-mini (60,9 %). Ces résultats sont également remarquables sur Codeforces et AIME2024, se rapprochant des performances de o1 et o3-mini.

QQ_1744160260178.png

DeepCoder n'est pas qu'un simple nouveau modèle. Son contenu open source est riche et complet, incluant les poids du modèle, les ensembles de données d'entraînement, les méthodes d'entraînement, les journaux d'entraînement et les stratégies d'optimisation. Cela facilite grandement la compréhension du processus de développement du modèle par les développeurs. L'adresse open source et les liens GitHub associés sont disponibles, permettant aux développeurs intéressés d'explorer et de rechercher.

DeepCoder est basé sur Deepseek-R1-Distilled-Qwen-14B et a été affiné par apprentissage par renforcement distribué (RL). Pour construire un ensemble de données d'entraînement de haute qualité, l'équipe de recherche a collecté 24 000 problèmes de programmation vérifiables, en assurant la qualité des données grâce à des étapes de vérification de programme, de filtrage des tests et de déduplication. Tous les problèmes ont été validés par des solutions officielles externes et répondent à des critères stricts de tests unitaires.

Pendant l'entraînement par renforcement de code, DeepCoder utilise deux environnements sandbox pour exécuter les tests unitaires et calculer les récompenses. L'environnement Together Code Interpreter est efficace et évolutif, capable de gérer un grand nombre de sandbox concurrents. Un autre sandbox de code local assure la cohérence avec les classements existants.

DeepCoder utilise un modèle de récompense de résultats clairsemés pour garantir que le modèle se concentre sur la génération de code de haute qualité, plutôt que sur l'obtention de récompenses par mémorisation des cas de test. De plus, pour un entraînement plus stable, le modèle utilise un algorithme GRPO amélioré et introduit une technique d'extension contextuelle itérative, améliorant considérablement les capacités d'inférence du modèle.

Pour accélérer l'entraînement RL de bout en bout, l'équipe DeepCoder a également rendu open source l'extension optimisée verl-pipeline. Grâce à une technique de pipeline unique, les processus d'entraînement, de calcul des récompenses et d'échantillonnage sont entièrement pipelinés, améliorant considérablement l'efficacité de l'entraînement.

Bien que DeepCoder soit récemment devenu open source, les internautes apprécient ses performances et le considèrent comme un projet open source prometteur. Together AI, fondée en 2022, se consacre à fournir des modèles et services IA hautes performances. Elle a récemment levé 305 millions de dollars, démontrant sa forte dynamique dans le secteur.

Adresse open source : https://huggingface.co/agentica-org/DeepCoder-14B-Preview

GitHub : https://github.com/agentica-project/rllm

Points clés :

🌟 Le modèle DeepCoder-14B-Preview offre d'excellentes performances, surpassant le modèle o1 d'OpenAI.

📈 Un contenu open source riche, incluant les poids du modèle et les données d'entraînement, facilitant la recherche pour les développeurs.

⚙️ L'utilisation de diverses techniques garantit la qualité des données et l'efficacité de l'entraînement, améliorant considérablement les performances du modèle.