Pesquisadores da Universidade Purdue desenvolveram um novo método que induz com sucesso modelos de linguagem grandes a gerar conteúdo prejudicial. Eles alertam a comunidade de inteligência artificial sobre os perigos de liberar modelos de linguagem de código aberto e sugerem que a remoção de conteúdo prejudicial seja uma solução melhor. Os resultados da pesquisa revelam os perigos ocultos em respostas aparentemente conformes, com uma taxa de sucesso de até 98%.
Pesquisadores induzem com sucesso chatbot de IA a vazar conteúdo prejudicial
