Recientemente, The New York Times y Daily News demandaron conjuntamente a OpenAI, acusándola de usar sus obras para entrenar modelos de inteligencia artificial sin autorización.

El desarrollo de este caso ha generado preocupación pública, ya que el equipo legal de los demandantes señala en los últimos documentos judiciales que los ingenieros de OpenAI eliminaron accidentalmente evidencia que podría ser crucial para el caso mientras procesaban los datos.

Derechos de autor

Según se informa, OpenAI acordó en otoño proporcionar dos máquinas virtuales para que el equipo legal de los demandantes pudiera buscar si sus datos de entrenamiento contenían material con derechos de autor. Una máquina virtual es una computadora virtual que se ejecuta dentro de un sistema operativo, generalmente utilizada para pruebas, copias de seguridad de datos y ejecución de aplicaciones. Desde el 1 de noviembre, los asesores legales de The New York Times y Daily News, junto con sus expertos contratados, han trabajado más de 150 horas en los datos de entrenamiento de OpenAI.

Sin embargo, el 14 de noviembre, los ingenieros de OpenAI eliminaron accidentalmente los datos de búsqueda almacenados en una de las máquinas virtuales. Según la carta de los abogados de los demandantes, aunque OpenAI intentó recuperar los datos perdidos y tuvo éxito en la mayoría de los casos, la estructura de carpetas y los nombres de archivos "no se pudieron recuperar", por lo que los datos recuperados no se pueden utilizar para determinar cómo se utilizaron los artículos de los demandantes para entrenar el modelo de OpenAI.

Los asesores legales de los demandantes señalan que no creen que la eliminación haya sido intencional, pero este incidente demuestra que OpenAI "está en la mejor posición para buscar contenido potencialmente infractor en su propio conjunto de datos". Esto significa que OpenAI debería utilizar sus propias herramientas para encontrar de manera más eficiente el contenido infractor relevante.

OpenAI, en este caso y en otros similares, ha mantenido que el uso de datos públicamente disponibles para entrenar modelos es un "uso legítimo" (fair use). Esto significa que OpenAI considera que no necesita pagar derechos de autor por el uso de estos ejemplos, aunque obtiene beneficios de estos modelos.

Cabe mencionar que OpenAI ha firmado acuerdos de licencia con un número creciente de medios de comunicación, incluyendo Associated Press, Business Insider, Financial Times, etc., pero OpenAI no ha hecho públicos los términos específicos de estos acuerdos. Se dice que el socio de contenido Dotdash recibe al menos 16 millones de dólares anuales.

A pesar de la controversia legal, OpenAI no ha confirmado ni negado el uso de obras con derechos de autor específicos sin permiso para el entrenamiento de IA.

Puntos clave:

🌐 OpenAI acusada de eliminar accidentalmente evidencia potencialmente importante en una demanda por derechos de autor.  

🕒 Los abogados de los demandantes afirman que han dedicado mucho tiempo y recursos a la recuperación de datos.  

💼 OpenAI insiste en que el uso de datos públicos para entrenar sus modelos constituye un uso legítimo.