Les chercheurs d'OpenAI ont annoncé jeudi le lancement de CriticGPT, un modèle d'IA innovant conçu pour identifier et corriger les erreurs dans le code généré par ChatGPT. Cette avancée majeure marque une étape importante dans l'amélioration de soi et le contrôle qualité de l'intelligence artificielle.
Principales caractéristiques de CriticGPT
1. Basé sur la série GPT-4 : CriticGPT s'appuie sur le puissant modèle linguistique GPT-4.
2. Axé sur la revue de code : Principalement utilisé pour analyser le code de programmation généré par ChatGPT et identifier les erreurs potentielles.
3. Collaboration homme-machine : Assistant IA pour les formateurs humains, améliorant l'efficacité et la précision de la revue de code.
4. Apprentissage par renforcement : Amélioration de l'"alignement" du système d'IA grâce à l'apprentissage par renforcement à partir des retours humains (RLHF).
Processus de développement et résultats
Les chercheurs ont utilisé des méthodes d'entraînement innovantes pour développer CriticGPT :
1. Préparation des données : Entraînement avec des échantillons de code contenant des erreurs intentionnellement introduites.
2. Participation humaine : Les formateurs humains ont modifié le code écrit par ChatGPT, introduit des erreurs et fourni des retours.
3. Application de nouvelles technologies : Introduction de la technique de "recherche de faisceaux d'échantillonnage forcé" (FSBS) pour équilibrer les commentaires détaillés et la génération de problèmes fictifs.
Résultats expérimentaux :
- Dans 63 % des cas d'erreurs naturelles, les humains ont préféré les critiques de CriticGPT.
- CriticGPT a réduit les critiques inutiles et les faux positifs/hallucinations.
- Dans 24 % des cas précédemment considérés comme parfaits, CriticGPT a réussi à détecter et à confirmer des erreurs.
Applications potentielles et limitations
Bien que CriticGPT soit principalement destiné à la revue de code, les recherches montrent qu'il a le potentiel d'être étendu à des tâches non liées au code. Cependant, le modèle présente certaines limitations :
1. Principalement entraîné sur des réponses ChatGPT courtes, il peut ne pas convenir aux tâches plus complexes.
2. Bien qu'il réduise les comportements fictifs, il ne les élimine pas complètement.
3. Il reste des améliorations à apporter pour l'identification des erreurs réparties sur plusieurs parties.
Perspectives d'avenir
OpenAI prévoit d'intégrer des modèles similaires à CriticGPT dans son pipeline d'étiquetage RLHF, afin de fournir une assistance IA aux formateurs. Cela représente une avancée importante dans le développement d'outils d'évaluation des sorties des grands modèles linguistiques (LLM). Cependant, les chercheurs soulignent que même avec l'assistance de l'IA, les tâches extrêmement complexes restent difficiles pour les évaluateurs humains.
Avec le développement continu de l'IA, des innovations comme CriticGPT joueront un rôle clé dans l'amélioration de la précision et de la fiabilité des systèmes d'IA, favorisant un meilleur alignement entre l'IA et les besoins humains.
Adresse : https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/