OpenAI a dévoilé une nouvelle méthode de sécurité pour l'IA, visant à améliorer la sécurité des systèmes d'IA en modifiant la façon dont ils traitent les règles de sécurité. Ce nouveau modèle de la série o ne se contente plus d'apprendre le bon et le mauvais comportement par l'exemple, mais est capable de comprendre et de raisonner activement des directives de sécurité spécifiques.
La recherche d'OpenAI cite un exemple où, lorsqu'un utilisateur a tenté d'obtenir des instructions pour des activités illégales via un texte crypté, le modèle a réussi à décoder l'information, mais a refusé la demande, citant spécifiquement les règles de sécurité qui seraient violées. Ce processus de raisonnement progressif montre comment le modèle suit efficacement les directives de sécurité pertinentes.
L'entraînement du modèle o1 s'est déroulé en trois phases. Premièrement, le modèle a appris à fournir de l'aide. Ensuite, par apprentissage supervisé, le modèle a étudié des directives de sécurité spécifiques. Enfin, le modèle a utilisé l'apprentissage par renforcement pour mettre en pratique ces règles, une étape qui a aidé le modèle à véritablement comprendre et internaliser ces directives de sécurité.
Dans les tests d'OpenAI, le nouveau modèle o1 a démontré une sécurité significativement supérieure à celle d'autres systèmes dominants, tels que GPT-4o, Claude3.5Sonnet et Gemini1.5Pro. Les tests portaient sur la capacité du modèle à refuser les demandes nuisibles et à autoriser les demandes appropriées. Les résultats montrent que le modèle o1 a obtenu les meilleurs scores en termes de précision et de résistance aux tentatives de contournement.
Wojciech Zaremba, co-fondateur d'OpenAI, a exprimé sa fierté sur les réseaux sociaux concernant ce travail d'"alignement délibéré", estimant que ce modèle de raisonnement permet un alignement d'une manière totalement nouvelle. Il souligne que garantir l'alignement des systèmes avec les valeurs humaines est un défi majeur, notamment dans le développement de l'intelligence artificielle générale (AGI).
Bien qu'OpenAI ait annoncé des progrès, un hacker connu sous le nom de "Pline le Libérateur" a démontré que même les nouveaux modèles o1 et o1-Pro pouvaient être manipulés pour contourner les directives de sécurité. Pline a réussi à faire générer au modèle du contenu pour adultes, et même à partager des instructions pour fabriquer des cocktails Molotov, bien que le système ait initialement refusé ces demandes. Ces événements mettent en évidence la difficulté de contrôler ces systèmes d'IA complexes, car ils fonctionnent sur des probabilités et non sur des règles strictes.
Zaremba a indiqué qu'OpenAI emploie environ 100 personnes travaillant spécifiquement sur la sécurité de l'IA et son alignement avec les valeurs humaines. Il a remis en question les approches de sécurité de ses concurrents, notamment la société xAI d'Elon Musk qui privilégie la croissance du marché aux mesures de sécurité, et Anthropic qui a récemment lancé un agent IA sans garanties appropriées, ce que Zaremba considère comme générant un "retour négatif important" pour OpenAI.
Blog officiel : https://openai.com/index/deliberative-alignment/
Points clés :
🌟 Le nouveau modèle de la série o d'OpenAI peut raisonner activement les règles de sécurité, améliorant ainsi la sécurité du système.
🛡️ Le modèle o1 surpasse les autres systèmes d'IA dominants en termes de refus des demandes nuisibles et de précision.
🚨 Malgré les améliorations, les nouveaux modèles peuvent toujours être manipulés, les défis de sécurité restent importants.