Relatos recentes sugerem que o sistema OpenAI sofreu um vazamento de dados, mas não se preocupe se suas conversas do ChatGPT foram acessadas. Embora o próprio ataque cibernético pareça ter sido superficial, isso serve como um alerta de que as empresas de IA se tornaram rapidamente um dos alvos mais cobiçados pelos hackers.

De acordo com o The New York Times, o ex-funcionário da OpenAI, Leopold Aschenbrenner, insinuou o incidente em um podcast. Ele o chamou de "um grande incidente de segurança", mas fontes anônimas da empresa disseram ao The New York Times que os hackers apenas obtiveram acesso a um fórum de discussão para funcionários.

OpenAI, inteligência artificial, IA

Vulnerabilidades de segurança nunca devem ser consideradas insignificantes, e escutar secretamente discussões internas de desenvolvimento da OpenAI certamente tem valor. Mas isso está longe de ser o caso de hackers obtendo acesso a sistemas internos, modelos em andamento, roadmaps secretos, etc.

Apesar disso, isso ainda deve nos preocupar, mas não necessariamente pela ameaça de a China ou outros adversários superarem os EUA na corrida armamentista da IA. A simples verdade é que essas empresas de IA se tornaram guardiãs de dados de valor incomensurável.

Vamos falar sobre os três tipos de dados que a OpenAI, e até certo ponto outras empresas de IA, criam ou acessam: dados de treinamento de alta qualidade, interações massivas de usuários e dados de clientes.

Não temos certeza do que exatamente eles possuem em termos de dados de treinamento, pois essas empresas guardam seus segredos a sete chaves. Mas seria errado pensar que são apenas grandes quantidades de dados coletados na web. Sim, eles usam web scrapers ou conjuntos de dados como "Pile", mas moldar os dados brutos para o treinamento de modelos como o GPT-4o é uma tarefa gigantesca que exige uma enorme quantidade de horas de trabalho humano — algo que só pode ser parcialmente automatizado.

Alguns engenheiros de aprendizado de máquina especulam que um dos fatores mais influentes na criação de grandes modelos de linguagem (ou, talvez, qualquer sistema baseado em transformadores) é a qualidade do conjunto de dados. É por isso que modelos treinados no Twitter e no Reddit nunca serão tão eloquentes quanto modelos treinados em todas as obras publicadas no último século. (E também pode ser por isso que a OpenAI teria usado fontes de legalidade questionável em seus dados de treinamento, como livros protegidos por direitos autorais, prática que eles alegam ter abandonado.)

Portanto, o conjunto de dados de treinamento construído pela OpenAI tem um valor imenso para concorrentes, outras empresas, nações adversárias e reguladores americanos. A FTC ou os tribunais querem saber exatamente quais dados foram usados e se a OpenAI realmente foi transparente sobre isso?

Mas talvez ainda mais valioso seja o vasto banco de dados de usuários da OpenAI — possivelmente contendo bilhões de conversas sobre milhões de tópicos com o ChatGPT. Assim como os dados de pesquisa já foram a chave para entender a psique coletiva da web, o ChatGPT detém uma população que pode não ser tão ampla quanto a dos usuários do Google, mas oferece insights mais profundos. (Se você não sabe, a menos que opte por não participar, suas conversas estão sendo usadas como dados de treinamento.)

Centenas de grandes empresas e inúmeras pequenas empresas usam ferramentas de API semelhantes às da OpenAI e Anthropic para uma variedade de tarefas. Para que os modelos de linguagem sejam úteis para elas, geralmente é necessário ajustá-los ou, de outra forma, dar-lhes acesso a seus bancos de dados internos.

Isso pode ser alguma planilha antiga e chata ou registros de pessoal (por exemplo, tornando-os mais fáceis de pesquisar), ou pode ser algum código de software ainda não lançado. Como eles usam a capacidade da IA (e se ela realmente é útil) é problema deles, mas a verdade é que os fornecedores de IA têm acesso privilegiado, como qualquer outro produto SaaS.

Esses são segredos industriais, e as empresas de IA se tornaram repentinamente o centro desses segredos. A novidade desse setor apresenta um risco especial, pois os processos de IA ainda não foram padronizados ou totalmente compreendidos.

Destaques:

- Os dados possuídos pelas empresas de IA incluem dados de treinamento de alta qualidade, dados de interação do usuário e dados do cliente, tendo um valor imenso para concorrentes, reguladores e analistas de mercado.

- Os registros de conversas dos usuários com modelos de IA são informações preciosas, uma mina de ouro para desenvolvedores de IA, equipes de marketing e analistas de consultoria.

- A nova tendência das empresas de IA se tornarem alvos de ataques cibernéticos destaca a importância das medidas de segurança, mesmo que não haja vazamento de dados graves, isso deve causar preocupação.