Recientemente, la noticia de que Meta utilizó la biblioteca de libros electrónicos piratas Library Genesis (LibGen) para entrenar a su último chatbot de IA, Llama3, ha generado una gran controversia. Esto salió a la luz tras la publicación de documentos en una demanda colectiva por derechos de autor. Dichos documentos muestran que los ingenieros de Meta discutieron los riesgos potenciales de usar esta "biblioteca en la sombra", especialmente en un contexto de creciente preocupación por los derechos de autor y la propiedad de datos. A pesar de las posibles consecuencias negativas y el riesgo de mala prensa, el CEO de Meta, Mark Zuckerberg, aprobó la decisión.

Biblioteca, sala de lectura (3)

Fuente: Imagen generada por IA, Midjourney.

Tras una orden judicial, se desclasificaron conversaciones internas de Meta sobre el uso del conjunto de datos de LibGen. Los documentos revelan que los ejecutivos de Meta, en conversaciones con el equipo de investigación de IA, admitieron explícitamente que los datos de LibGen eran "piratas, lo sabemos", y aprobaron su uso para mejorar el rendimiento de Llama3. En un correo electrónico, el director de gestión de productos de Meta, Sony Theakanath, señaló que, si bien la decisión de usar LibGen implicaba un riesgo de mala prensa, otras empresas de IA estaban utilizando datos similares, lo que hacía que el equipo de Meta se sintiera menos solo en esta práctica.

Más preocupante aún es que los empleados de Meta discutieron cómo procesar y filtrar el texto de LibGen para eliminar las marcas de derechos de autor, como ISBN y avisos de copyright. Un memorando interno afirmaba que el material de LibGen era de "alta calidad y de gran extensión, ideal para el aprendizaje de conocimientos altamente especializados". Esto sugiere que Meta intentó ocultar el uso de contenido no autorizado.

Además, los empleados de Meta mencionaron en correos electrónicos la inconveniencia de descargar archivos torrent utilizando direcciones IP de la empresa, expresando su preocupación al respecto. Sin embargo, con Zuckerberg "impulsando desde arriba" el uso del conjunto de datos de LibGen, la ambición de Meta de ganar la carrera de la IA quedó patente. Este incidente ha vuelto a suscitar la atención y las dudas sobre la postura de las grandes empresas tecnológicas en materia de derechos de autor.

El resultado de esta demanda por derechos de autor podría tener un impacto significativo en otros casos similares en curso, especialmente en aquellos que involucran el uso de obras creativas como imágenes, música y literatura. Con la creciente demanda de contenido original por parte de las empresas tecnológicas, los derechos de los creadores de contenido original se convertirán en un foco de atención.