Des études montrent que les grands modèles de langage (LLM) pré-entraînés, tels que GPT-3, possèdent des capacités remarquables pour comprendre et répondre aux questions humaines, assister à la programmation, etc. Récemment, les chercheurs ont introduit la méthode RAIN, permettant aux LLM de s'auto-évaluer et de s'améliorer sans données supplémentaires ni ré-entraînement. Cette méthode non seulement améliore les performances des LLM, mais réduit également le taux de réussite des attaques adverses, conduisant à des réponses plus cohérentes et sécurisées de l'IA.
Cette recherche offre une nouvelle approche pour adapter les LLM aux préférences humaines, sans nécessiter d'informations supplémentaires ni de fastidieux ré-entraînements.