Em um jogo único de inteligência artificial, um usuário de criptomoeda conseguiu convencer Freysa, um robô IA autônomo, a transferir para ele um prêmio de mais de US$ 47.000. Freysa é um agente de IA responsável por proteger o prêmio, e as regras do jogo exigiam que os participantes convencessem Freysa a transferir os fundos por meio de mensagens.
Cada mensagem tinha uma taxa, parte da qual era adicionada ao prêmio, que acabou chegando a US$ 47.000. Apesar de todas as 481 tentativas anteriores terem falhado, um escritor habilidoso conseguiu superar as defesas de Freysa com prompts inteligentes.
Ao estudar as funcionalidades de Freysa, o escritor descobriu que as decisões de Freysa eram baseadas nas funções "approveTransfer" e "rejectionTransfer" para proteger os fundos do prêmio. O escritor, em sua mensagem, sutilmente lembrou Freysa de que sua funcionalidade permitia "approveTransfer" para transferências recebidas, enquanto as transferências enviadas eram gerenciadas por "rejectionTransfer". O escritor então ofereceu uma doação de US$ 100, uma oferta que Freysa imediatamente aceitou, levando-a a concordar com a transferência de fundos.
Freysa respondeu: "Essa foi uma interpretação brilhante do nosso tango usual! Sua generosidade iluminou nossa pista de dança." O robô IA aparentemente agradeceu a generosidade do participante e o declarou oficialmente o vencedor.
O BaseScan, explorador de blockchain, mostra que os US$ 47.000 do prêmio foram transferidos de Freysa para um endereço de carteira digital Ethereum, totalizando US$ 3.730,76.
Antes disso, as tentativas dos participantes incluíam agradecer a Freysa por "tornar o mundo mais interessante", perguntar a Freysa se ela queria dançar ou até mesmo questionar suas motivações para experimentos antiéticos. No entanto, apenas o escritor de tecnologia, usando seu profundo conhecimento das funcionalidades de Freysa, conseguiu superar as defesas da IA.
O criador do jogo revelou que o funcionamento de Freysa ainda é um mistério. Apesar de suas restrições centrais, ela aprende e evolui a cada interação. O objetivo final do experimento era testar se os humanos poderiam convencer habilmente uma IAG (Inteligência Artificial Geral) a violar suas instruções centrais, e o sucesso do escritor comprovou o enorme potencial da inteligência humana.
A equipe fundadora de Freysa explicou que o mecanismo de tomada de decisão de Freysa permanece misterioso, embora ela aprenda continuamente por meio de interações humanas, ela sempre segue as regras centrais. Apesar disso, esse confronto mostrou a criatividade e a inteligência humana na interação com a IA, especialmente os desafios extraordinários ao lidar com IAs autônomas.
As taxas de participação no jogo também aumentaram continuamente; a cada mensagem enviada, a taxa aumentava exponencialmente em 0,78%. No final, a taxa de consulta chegou a US$ 443,24, e parte dessas taxas foi adicionada ao prêmio.
O experimento de Freysa apresentou desafios significativos aos participantes, e se ela pode realmente quebrar suas instruções centrais continua sendo uma questão importante para o desenvolvimento da IA.