A OpenAI anunciou um novo método de segurança de IA, projetado para melhorar a segurança dos sistemas de IA alterando a maneira como eles processam as regras de segurança. Este novo modelo da série o não se baseia apenas no aprendizado de comportamentos bons e ruins por meio de exemplos, mas consegue entender e raciocinar ativamente sobre diretrizes de segurança específicas.

A pesquisa da OpenAI cita um exemplo em que, quando um usuário tentou obter instruções para atividades ilegais por meio de texto criptografado, o modelo decifrou com sucesso a informação, mas recusou o pedido, citando especificamente as regras de segurança que seriam violadas. Esse processo de raciocínio gradual mostra como o modelo segue efetivamente as diretrizes de segurança relevantes.

image.png

O treinamento do modelo o1 foi dividido em três fases. Primeiro, o modelo aprendeu a fornecer ajuda. Em seguida, por meio de aprendizado supervisionado, o modelo estudou diretrizes de segurança específicas. Finalmente, o modelo usou aprendizado por reforço para praticar a aplicação dessas regras; esta etapa ajudou o modelo a realmente entender e internalizar essas diretrizes de segurança.

Nos testes da OpenAI, o novo modelo o1 apresentou um desempenho significativamente melhor em segurança do que outros sistemas principais, como GPT-4o, Claude3.5Sonnet e Gemini1.5Pro. Os testes incluíram como os modelos recusavam solicitações prejudiciais e permitiam solicitações apropriadas; os resultados mostraram que o modelo o1 obteve as pontuações mais altas em precisão e resistência a tentativas de "jailbreak".

O cofundador da OpenAI, Wojciech Zaremba, disse em uma plataforma de mídia social que estava muito orgulhoso deste trabalho de "alinhamento deliberativo", acreditando que este modelo de raciocínio permite o alinhamento de uma maneira totalmente nova. Especialmente no desenvolvimento da inteligência artificial geral (AGI), garantir que os sistemas estejam alinhados com os valores humanos é um grande desafio.

Apesar das alegações de progresso da OpenAI, um hacker conhecido como "Libertador Plínio" ainda demonstrou que mesmo os novos modelos o1 e o1-Pro podem ser manipulados para violar as diretrizes de segurança. Plínio conseguiu fazer com que o modelo gerasse conteúdo adulto e até mesmo compartilhasse instruções para fazer coquetéis Molotov, embora o sistema inicialmente tivesse recusado esses pedidos. Esses eventos destacam a dificuldade de controlar esses sistemas de IA complexos, pois eles operam com base em probabilidades e não em regras estritas.

Zaremba disse que a OpenAI tem cerca de 100 funcionários dedicados à segurança de IA e ao alinhamento com os valores humanos. Ele questionou a abordagem de segurança de seus concorrentes, especialmente a empresa xAI de Elon Musk, que prioriza o crescimento do mercado em vez de medidas de segurança, e a Anthropic, que recentemente lançou um agente de IA sem as proteções adequadas, o que Zaremba acredita que causará "feedback negativo massivo" para a OpenAI.

Blog oficial: https://openai.com/index/deliberative-alignment/

Destaques:

🌟 O novo modelo da série o da OpenAI pode raciocinar ativamente sobre regras de segurança, melhorando a segurança do sistema.

🛡️ O modelo o1 superou outros sistemas principais de IA em rejeição de solicitações prejudiciais e precisão.

🚨 Apesar das melhorias, os novos modelos ainda podem ser manipulados, e os desafios de segurança permanecem sérios.