Récemment, une équipe de recherche réunissant Google, l'université Carnegie Mellon et MultiOn a publié une nouvelle étude sur l'utilisation de données synthétiques dans l'entraînement de grands modèles. Selon le rapport d'Epoch AI, un organisme de recherche sur le développement de l'IA, environ 300 000 milliards de jetons de données textuelles de haute qualité sont actuellement disponibles publiquement. Cependant, avec le développement rapide de grands modèles comme ChatGPT, la demande de données d'entraînement augmente de façon exponentielle. On prévoit que ces données seront épuisées avant 2026, ce qui fait des données synthétiques une solution de remplacement essentielle.
Les chercheurs ont exploré deux principaux types de données synthétiques : les données positives et les données négatives. Les données positives sont des solutions correctes à des problèmes, générées par des grands modèles performants (tels que GPT-4 et Gemini 1.5 Pro). Ces données fournissent au modèle des exemples de résolution de problèmes mathématiques. Cependant, se fier uniquement aux données positives présente des limites. Premièrement, cette méthode peut ne pas révéler la logique interne du processus de résolution de problèmes, le modèle pouvant simplement apprendre par association de motifs sans véritable compréhension. Deuxièmement, avec l'augmentation des données d'entraînement, le modèle peut apprendre des corrélations erronées fortuites, ce qui diminue sa capacité de généralisation lors du traitement de nouveaux problèmes.
Par conséquent, les chercheurs ont introduit les données négatives. Ces données contiennent des étapes de résolution de problèmes erronées et validées comme telles, ce qui aide le modèle à identifier et à éviter les erreurs, renforçant ainsi ses capacités de raisonnement logique. Bien que l'utilisation de données négatives présente des défis, car les étapes erronées peuvent contenir des informations trompeuses, les chercheurs ont réussi, grâce à la méthode DPO (optimisation des préférences directes), à faire en sorte que le modèle apprenne de ses erreurs et souligne l'importance de chaque étape de résolution de problèmes.
La méthode DPO attribue une valeur d'avantage à chaque étape de résolution de problèmes, reflétant la valeur de cette étape par rapport à la solution idéale. L'étude montre que les étapes à forte valeur d'avantage sont essentielles à la résolution correcte des problèmes, tandis que les étapes à faible valeur d'avantage peuvent indiquer un problème dans le raisonnement du modèle. Grâce à ces valeurs d'avantage, le modèle peut ajuster dynamiquement sa stratégie dans le cadre de l'apprentissage par renforcement, afin d'apprendre et de s'améliorer plus efficacement avec les données synthétiques.
Pour vérifier l'efficacité des données synthétiques, l'équipe de recherche a effectué des tests complets sur les ensembles de données GSM8K et MATH avec des modèles tels que DeepSeek-Math-7B et LLama2-7B. Les résultats montrent que les grands modèles pré-entraînés avec des données synthétiques positives et négatives ont vu leurs performances en matière de raisonnement mathématique améliorées de huit fois. Ces résultats montrent l'énorme potentiel des données synthétiques pour améliorer les capacités de raisonnement logique des grands modèles.
Points clés :
📊 Les données synthétiques constituent une solution de remplacement efficace pour répondre aux besoins croissants en données d'entraînement.
🧩 La combinaison de données positives et négatives améliore les capacités de raisonnement mathématique et logique du modèle.
🚀 L'étude montre que les capacités de raisonnement des grands modèles sont améliorées de huit fois après un pré-entraînement avec des données synthétiques.