Des équipes de recherche de l'Université Stanford et de l'Université de Washington ont récemment publié conjointement une méthode révolutionnaire d'entraînement de l'IA, nommée S1. Son concept central repose sur une technique de mise à l'échelle extrêmement simple au moment des tests pour améliorer considérablement les capacités de raisonnement des modèles linguistiques. Contrairement aux méthodes précédentes qui reposaient sur une puissance de calcul énorme ou des algorithmes complexes, la méthode S1 optimise intelligemment l'allocation des ressources de calcul du modèle lors des tests, ce qui permet une amélioration spectaculaire des performances.

La méthode S1 commence par la création minutieuse d'un petit jeu de données appelé s1K, contenant 1000 problèmes de raisonnement de haute qualité. Les critères de sélection de ce jeu de données sont extrêmement stricts : difficulté élevée, grande diversité et haute qualité. L'équipe de recherche a mené des expériences d'ablation approfondies pour vérifier l'importance de ces trois critères. Les résultats montrent qu'une sélection aléatoire ou la prise en compte d'un seul critère entraînent une forte baisse des performances. Il est intéressant de noter que même l'entraînement sur un superensemble de 59 000 échantillons donne des résultats bien inférieurs à ceux obtenus avec les 1000 échantillons soigneusement sélectionnés, ce qui souligne l'importance de la sélection des données.

image.png

Une fois l'entraînement du modèle terminé, les chercheurs utilisent une technique appelée « contrainte budgétaire » pour contrôler la quantité de calculs effectués lors des tests. En termes simples, cette méthode force l'arrêt du processus de réflexion du modèle ou ajoute des instructions de « pause » pour prolonger le temps de réflexion, guidant ainsi le modèle vers une exploration et une vérification plus approfondies. De cette manière, le modèle peut vérifier à plusieurs reprises les étapes du raisonnement et corriger efficacement les erreurs.

Les résultats expérimentaux montrent qu'après un ajustement fin sur le jeu de données s1K et l'application de la technique de « contrainte budgétaire », le modèle s1-32B surpasse le modèle o1-preview d'OpenAI de 27 % sur les problèmes de mathématiques de niveau compétition. Plus surprenant encore, grâce à la mise à l'échelle par « contrainte budgétaire », le modèle s1-32B affiche une capacité de généralisation dépassant son niveau d'entraînement, son score passant de 50 % à 57 % sur le jeu de test AIME24.

image.png

La contribution principale de cette recherche réside dans la proposition d'une méthode simple et efficace pour créer des jeux de données dotés de fortes capacités de raisonnement et pour réaliser une mise à l'échelle des performances lors des tests. Sur cette base, l'équipe de recherche a créé le modèle s1-32B, dont les performances sont comparables, voire supérieures, à celles des modèles propriétaires, tout en étant open source et à haute efficacité d'échantillonnage. Le code, le modèle et les données de cette recherche sont disponibles en open source sur GitHub.

Les chercheurs ont également mené des expériences d'ablation approfondies sur les subtilités des données et la technique de mise à l'échelle lors des tests. Concernant les données, ils ont constaté que la prise en compte simultanée de la difficulté, de la diversité et de la qualité est essentielle. Concernant la mise à l'échelle lors des tests, la méthode de « contrainte budgétaire » a démontré une excellente contrôlabilité et une amélioration des performances. L'étude explore également deux méthodes différentes, la mise à l'échelle parallèle et la mise à l'échelle séquentielle, et introduit des techniques avancées comme REBASE, ouvrant des perspectives importantes pour les recherches futures.

Cette recherche apporte non seulement une nouvelle approche peu coûteuse et efficace au domaine de l'entraînement de l'IA, mais elle jette également les bases d'applications plus larges de l'IA.

Adresse de l'article : https://arxiv.org/pdf/2501.19393