Recientemente se ha informado de una violación de datos en los sistemas de OpenAI, pero no se preocupe por si sus conversaciones de ChatGPT se han visto comprometidas. Si bien el ataque en sí parece haber sido superficial, sirve como un recordatorio de que las empresas de IA se han convertido rápidamente en uno de los objetivos más codiciados por los hackers.

Según The New York Times, un exempleado de OpenAI, Leopold Aschenbrenner, insinuó el ataque en un podcast. Lo calificó de "incidente de seguridad importante", pero fuentes anónimas de la empresa dijeron al Times que los hackers solo obtuvieron acceso a un foro de discusión para empleados.

OpenAI, inteligencia artificial, IA

Las vulnerabilidades de seguridad nunca deben tomarse a la ligera, y es cierto que escuchar las discusiones internas de desarrollo de OpenAI tiene valor. Pero esto dista mucho de que los hackers accedan a sistemas internos, modelos en desarrollo, hojas de ruta secretas, etc.

Aun así, esto debería preocuparnos, pero no necesariamente por la amenaza de que China u otros adversarios nos superen en la carrera armamentística de la IA. La simple realidad es que estas empresas de IA se han convertido en guardianas de datos de un valor inmenso.

Hablemos de los tres tipos de datos que OpenAI, y hasta cierto punto otras empresas de IA, crean o a los que acceden: datos de entrenamiento de alta calidad, una gran cantidad de interacciones con los usuarios y datos de los clientes.

No sabemos con certeza qué datos de entrenamiento poseen, ya que estas empresas guardan celosamente sus secretos. Pero sería erróneo pensar que se trata simplemente de una gran cantidad de datos extraídos de la web. Sí, utilizan web scrapers o conjuntos de datos como "Pile", pero dar forma a los datos brutos para el entrenamiento de modelos como GPT-4o es una tarea enorme que requiere una gran cantidad de horas de trabajo humano, solo parcialmente automatizable.

Algunos ingenieros de aprendizaje automático especulan que uno de los factores que más influyen en la creación de grandes modelos de lenguaje (o quizás cualquier sistema basado en transformadores) es la calidad del conjunto de datos. Por eso, los modelos entrenados en Twitter y Reddit nunca serán tan elocuentes como los entrenados en todas las obras publicadas en el último siglo. (Y posiblemente por qué OpenAI supuestamente utilizó fuentes de dudosa legalidad en sus datos de entrenamiento, como libros protegidos por derechos de autor, una práctica que afirman haber abandonado).

Por lo tanto, el conjunto de datos de entrenamiento que OpenAI ha construido tiene un valor enorme para los competidores, otras empresas, estados adversarios y los reguladores estadounidenses. ¿Querrá la FTC o un tribunal saber exactamente qué datos se utilizaron y si OpenAI realmente lo declaró con exactitud?

Pero quizás aún más valiosa sea la enorme base de datos de usuarios de OpenAI, que probablemente contenga miles de millones de conversaciones sobre millones de temas con ChatGPT. Así como los datos de búsqueda fueron alguna vez la clave para comprender la psique colectiva de la web, ChatGPT posee un conjunto de datos que puede que no sea tan amplio como el de los usuarios de Google, pero ofrece una comprensión mucho más profunda. (Por si no lo sabe, a menos que opte por no participar, sus conversaciones se están utilizando como datos de entrenamiento).

Cientos de grandes empresas e innumerables pequeñas utilizan las herramientas de API de empresas como OpenAI y Anthropic para una variedad de tareas. Para que los modelos de lenguaje les resulten útiles, a menudo es necesario ajustarlos o darles acceso a sus bases de datos internas.

Pueden ser viejos y aburridos presupuestos o registros de personal (por ejemplo, para facilitar su búsqueda), o pueden ser códigos de software aún no publicados. Cómo utilizan la capacidad de la IA (y si realmente les resulta útil) es asunto suyo, pero la simple realidad es que los proveedores de IA tienen acceso privilegiado, al igual que cualquier otro producto SaaS.

Estos son secretos comerciales, y las empresas de IA se han convertido repentinamente en el núcleo de estos secretos. La novedad de esta industria presenta un riesgo particular, ya que los procesos de IA aún no están estandarizados ni se comprenden completamente.

Puntos clave:

- Los datos que poseen las empresas de IA, incluyendo datos de entrenamiento de alta calidad, datos de interacción del usuario y datos del cliente, tienen un valor enorme para los competidores, los reguladores y los analistas de mercado.

- Los registros de las conversaciones de los usuarios con los modelos de IA son información valiosa, una mina de oro para el desarrollo de IA, equipos de marketing y analistas de consultoría.

- La nueva tendencia de las empresas de IA como objetivo de ataques de hackers pone de manifiesto la importancia de las medidas de seguridad, incluso en ausencia de una fuga de datos grave.