Récemment, des chercheurs en IA des universités de Stanford et de Washington ont réussi à entraîner un modèle d'inférence IA appelé s1, pour un coût inférieur à 50 dollars et avec un crédit de calcul cloud très faible. Cette recherche, publiée vendredi dernier, montre que s1 surpasse les modèles o1 d'OpenAI et R1 de DeepSeek dans les tests de mathématiques et de programmation. Le code et les données de s1 sont disponibles publiquement sur GitHub pour d'autres chercheurs.
L'équipe de recherche explique qu'elle est partie d'un modèle de base existant et l'a affiné via une technique de distillation pour extraire les capacités d'inférence souhaitées. Le processus de distillation de s1 a utilisé le modèle Gemini2.0Flash Thinking Experimental de Google, une méthode similaire à celle utilisée par des chercheurs de l'UC Berkeley le mois dernier pour entraîner un autre modèle d'inférence IA, dont le coût de formation était d'environ 450 dollars.
Cette avancée réjouit beaucoup de monde, surtout dans le domaine actuel de l'IA où les chercheurs peuvent innover sans financement massif. Cependant, l'apparition de s1 soulève des questions sur la marchandisation des modèles d'IA. Si n'importe qui peut reproduire des modèles à plusieurs millions de dollars à un coût relativement faible, où se trouvent alors les avantages concurrentiels de ces grandes entreprises ?
De toute évidence, les grands laboratoires d'IA ne sont pas satisfaits. OpenAI a déjà accusé DeepSeek d'utiliser abusivement ses données d'API pour la distillation de modèles. L'équipe de recherche de s1 espère trouver une méthode simple pour obtenir des performances d'inférence puissantes tout en améliorant la capacité de « délai d'exécution », c'est-à-dire en donnant plus de temps de réflexion au modèle IA avant de répondre aux questions. Ce sont des avancées réalisées par le modèle o1 d'OpenAI, que DeepSeek et d'autres laboratoires d'IA tentent de reproduire par différentes méthodes.
La recherche sur s1 montre qu'une méthode d'ajustement fin supervisé (SFT) avec un ensemble de données relativement petit peut efficacement distiller des modèles d'inférence, une méthode généralement moins coûteuse que les méthodes d'apprentissage par renforcement à grande échelle utilisées par DeepSeek. Google offre également un accès gratuit à Gemini2.0Flash Thinking Experimental, mais cette plateforme a des limites d'utilisation quotidienne et ses conditions interdisent l'ingénierie inverse de son modèle pour développer des services concurrents.
Pour entraîner s1, les chercheurs ont créé un ensemble de données de 1 000 questions soigneusement sélectionnées et leurs réponses correspondantes, avec le processus de « réflexion » sous-jacent. L'entraînement a utilisé 16 GPU Nvidia H100 et a duré moins de 30 minutes. Selon les chercheurs, ils peuvent désormais louer les ressources de calcul nécessaires pour environ 20 dollars. De plus, l'équipe de recherche a utilisé une astuce astucieuse : faire ajouter le mot « attente » à s1 lors de l'inférence pour améliorer la précision des réponses.
En 2025, Meta, Google et Microsoft prévoient d'investir des centaines de milliards de dollars dans les infrastructures d'IA, une partie de ces fonds étant destinée à l'entraînement de la prochaine génération de modèles d'IA. Bien que la technique de distillation ait démontré une bonne capacité à reproduire des modèles d'IA à moindre coût, elle n'améliore pas de manière significative les performances des nouveaux modèles d'IA.
Article : https://arxiv.org/pdf/2501.19393
Code : https://github.com/simplescaling/s1
Points clés :
🌟 Le coût d'entraînement du modèle s1 est inférieur à 50 dollars, et ses performances sont comparables à celles des meilleurs modèles d'inférence.
🛠️ L'équipe de recherche a extrait les capacités d'inférence d'un modèle existant grâce à la technique de distillation, le processus d'entraînement étant rapide et efficace.
🚀 Les grands laboratoires d'IA s'inquiètent de la reproduction à faible coût des modèles, et les futurs investissements se concentreront sur les infrastructures d'IA.