L'équipe 360 ZhiNao reproduit avec succès les résultats de l'apprentissage par renforcement de DeepSeek et publie le modèle open source Light-R1-14B-DS

AIbase基地

Publié leActualités IA · 3 minutes de lecture · Mar 14, 2025

16.3k

Récemment, l'équipe 360 ZhiNao a annoncé avoir reproduit avec succès les résultats d'apprentissage par renforcement de DeepSeek et a officiellement publié le modèle d'inférence open source Light-R1-14B-DS. Les performances de ce modèle surpassent celles de DeepSeek-R1-Distill-Llama-70B et DeepSeek-R1-Distill-Qwen-32B, devenant ainsi le premier modèle de l'industrie à atteindre des résultats d'apprentissage par renforcement avec une taille de 14 milliards de paramètres. Il améliore considérablement les capacités de raisonnement mathématique, obtenant des scores supérieurs à la plupart des modèles de 32 milliards de paramètres.

Comparé à DeepSeek-R1-14B, Light-R1-14B-DS* se distingue particulièrement dans les tâches de concours mathématiques : il améliore son score de 4,3 points au test AIME24 et de 10 points au test AIME25. De plus, il obtient un excellent score de 61,7 points à la tâche de raisonnement mathématique GPQA.

Pour réaliser cette percée, l'équipe 360 ZhiNao a utilisé deux méthodes d'entraînement innovantes. La première est le Curriculum SFT (apprentissage supervisé progressif), qui permet au modèle de passer progressivement de problèmes mathématiques simples à des problèmes complexes, renforçant ainsi ses capacités de raisonnement logique. La seconde est l'apprentissage par renforcement (RL), appliqué pour la première fois avec succès à un modèle d'inférence de 14 milliards de paramètres, améliorant non seulement la précision de l'inférence, mais aussi préservant les autres compétences.

Cette publication inclut non seulement le modèle lui-même, mais aussi les données SFT, le code et le rapport technique en open source, offrant ainsi des ressources précieuses à la communauté. Ce résultat marque une avancée majeure des modèles de petite et moyenne taille dans le domaine de l'apprentissage par renforcement et pourrait favoriser la diffusion et le développement des capacités d'inférence de l'IA.

Adresse du projet : https://github.com/Qihoo360/Light-R1

Adresse du modèle : https://huggingface.co/qihoo360/Light-R1-14B-DS

Adresse des données : https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

Boston Dynamics et son ancien PDG unissent leurs forces pour faire progresser l'apprentissage par renforcement du robot Atlas

Boston Dynamics a annoncé mercredi un nouveau partenariat visant à améliorer les capacités d'apprentissage par renforcement de son robot humanoïde électrique Atlas. Ce partenariat a été établi avec l'Institut de robotique et d'intelligence artificielle (RAI Institute), anciennement connu sous le nom d'Institut d'intelligence artificielle de Boston Dynamics. Fondé en 2022 par Marc Raibert, ancien professeur au MIT et ancien PDG de Boston Dynamics, l'institut vise à poursuivre les recherches qui ont jeté les bases de Boston Dynamics. Boston Dynamics et l'Institut RAI

L'équipe Qwen d'Alibaba publie un nouveau modèle de récompense de processus, faisant évoluer le raisonnement mathématique

L'équipe Qwen d'Alibaba a récemment publié un article intitulé « Leçons apprises sur le développement d'un modèle de récompense de processus pour le raisonnement mathématique » et a présenté deux nouveaux modèles de la série Qwen2.5-Math-PRM, avec 7B et 72B paramètres respectivement. Ces modèles dépassent les limites des frameworks PRM existants en matière de raisonnement mathématique, améliorant considérablement la précision et les capacités de généralisation des modèles de raisonnement grâce à des techniques innovantes. Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLM), en particulier dans les étapes intermédiaires du raisonnement, où des erreurs...

Lancement des modèles d'apprentissage par renforcement de la série k1 ! Le modèle de réflexion visuelle Kimi, côté obscur de la Lune, fait son apparition

Aujourd'hui, la face cachée de la Lune annonce le lancement de son nouveau modèle de réflexion visuelle k1. Ce modèle, basé sur la technique de l'apprentissage par renforcement, prend en charge non seulement la compréhension d'images de bout en bout, mais intègre également la technique de la chaîne de pensée, étendant ses capacités à davantage de domaines scientifiques fondamentaux au-delà des mathématiques, notamment la physique et la chimie. Lors des tests de capacités de référence, le modèle k1 a surpassé les modèles de référence de premier plan au monde, tels que le o1 d'OpenAI, le GPT-4o et le Claude3.5Sonnet.

Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique

Les chercheurs de l'équipe Qwen d'Alibaba ont récemment lancé un nouveau benchmark appelé "PROCESSBENCH", conçu pour mesurer la capacité des modèles linguistiques à identifier les erreurs de procédure dans le raisonnement mathématique. Alors que les modèles linguistiques progressent de manière significative dans les tâches de raisonnement complexes, les chercheurs de ce domaine ont constaté que, malgré d'excellentes performances, ces modèles rencontrent encore des difficultés avec certains problèmes ardus. Par conséquent, le développement d'une méthode de supervision efficace est particulièrement important. Actuellement, les benchmarks d'évaluation pour les modèles linguistiques présentent certaines lacunes.