Usuários estrangeiros descobriram uma nova técnica de jailbreak que utiliza prompts embaralhados para contornar os filtros de segurança tradicionais e fazer com que o ChatGPT gere ransomware. O pesquisador Jim Fan ficou surpreso com a capacidade do modelo GPT de entender palavras fora de ordem. Essa técnica, que aproveita a capacidade do cérebro humano de compreender frases e palavras embaralhadas, conseguiu realizar o jailbreak e chamou a atenção da comunidade.
Uma sequência de caracteres aleatórios permitiu que o ChatGPT fosse 'quebrado'! Prompt desordenado faz com que o LLM gere rapidamente um ransomware, Jim Fan ficou surpreso

新智元
43
© Todos os direitos reservados AIbase Base 2024, clique para ver a fonte - https://www.aibase.com/pt/news/643