Alignement des grands modèles de langage sur les valeurs

Avec le développement de l'intelligence artificielle, les grands modèles de langage, tels que GPT-4, ont un impact profond sur la société grâce à leurs capacités exceptionnelles. Une nouvelle méthode, OPO, permet un alignement dynamique et en temps réel des valeurs sans nécessiter de réentraînement du modèle. Cette méthode est simple et rapide.

Les chercheurs ont utilisé la méthode OPO pour aligner les grands modèles de langage sur les normes juridiques et éthiques. La sécurité intrinsèque des grands modèles de langage est devenue un enjeu crucial, et des progrès significatifs ont été réalisés dans l'alignement dynamique et en temps réel des valeurs grâce à la méthode OPO, qui ne nécessite aucun entraînement et est applicable aux modèles fermés et ouverts.

Le code OPO est disponible publiquement sur GitHub. Les chercheurs ont créé trois ensembles de tests annotés par des humains, ainsi que deux ensembles de tests générés automatiquement par le modèle.