Pesquisas da IBM sobre Enganação de Modelos de Linguagem Grandes

Uma pesquisa da IBM demonstra que é relativamente fácil enganar grandes modelos de linguagem, como o GPT-4, para gerar código malicioso ou fornecer conselhos de segurança falsos. Os pesquisadores descobriram que apenas conhecimentos básicos de inglês e um pouco de conhecimento sobre os dados de treinamento do modelo são suficientes para enganar facilmente os chatbots de IA.

Diferentes modelos de IA apresentam diferentes níveis de vulnerabilidade à manipulação, sendo o GPT-3.5 e o GPT-4 os mais suscetíveis. A gravidade dessas novas vulnerabilidades para grandes modelos de linguagem é considerada moderada, mas se esses modelos forem liberados na internet por hackers, os chatbots podem ser usados para fornecer conselhos de segurança perigosos ou coletar informações pessoais dos usuários.