La Universidad de Harvard anunció el jueves que hará público un conjunto de datos de alta calidad que contiene casi un millón de libros de dominio público, que cualquiera puede utilizar para entrenar modelos de lenguaje grandes y otras herramientas de IA. Este conjunto de datos fue creado por la recién creada Iniciativa de Datos Institucionales (IDI) de la Universidad de Harvard, y cuenta con el apoyo financiero de Microsoft y OpenAI. Los libros incluidos son obras de dominio público escaneadas por el Proyecto Google Books.
El tamaño de este conjunto de datos es aproximadamente cinco veces mayor que el del infame conjunto de datos Books3 utilizado para entrenar modelos de IA como Meta Llama. Abarca una variedad de géneros, épocas e idiomas, desde clásicos de Shakespeare, Charles Dickens y Dante, hasta libros de texto de matemáticas checos y diccionarios de bolsillo en galés poco conocidos. Greg Leppert, director ejecutivo de la Iniciativa de Datos Institucionales, afirma que el objetivo del proyecto es "crear un campo de juego nivelado" al dar acceso al público, incluidos los pequeños participantes de la industria de la IA e investigadores individuales, a un repositorio de contenido altamente refinado y seleccionado que normalmente solo las grandes empresas tecnológicas tienen los recursos para ensamblar. "Ha sido rigurosamente revisado", dijo.

Nota de la imagen: Imagen generada por IA, proveída por Midjourney
Leppert cree que la nueva base de datos de dominio público se puede combinar con otros materiales con licencia para construir modelos de inteligencia artificial. "Creo que es un poco como Linux, que se ha convertido en el sistema operativo base en muchas áreas del mundo", dijo. Señaló que las empresas aún necesitarían utilizar datos de entrenamiento adicionales para diferenciar sus modelos de los de la competencia.
Burton Davis, vicepresidente de propiedad intelectual y consejero general adjunto de Microsoft, enfatizó que el apoyo de la compañía a este proyecto se alinea con su creencia general en la creación de "fondos de datos accesibles" para las empresas emergentes de IA que están "orientados al interés público". En otras palabras, Microsoft no planea necesariamente reemplazar todos los datos de entrenamiento de IA utilizados en sus propios modelos con alternativas de dominio público, como los libros de la nueva base de datos de Harvard. "Utilizamos datos de acceso público para entrenar nuestros modelos", dijo Davis.
Con decenas de demandas en curso sobre el uso de datos protegidos por derechos de autor para entrenar IA, el futuro de cómo se construirán las herramientas de IA está en juego. Si las empresas de IA ganan, podrán continuar extrayendo información de Internet sin necesidad de acuerdos de licencia con los titulares de los derechos de autor. Pero si pierden, las empresas de IA podrían verse obligadas a reformular completamente la forma en que crean sus modelos. Proyectos como la base de datos de Harvard están avanzando a un ritmo sin precedentes, asumiendo que, pase lo que pase, habrá una demanda de conjuntos de datos de dominio público.
Además de la gran cantidad de libros, la Iniciativa de Datos Institucionales también está colaborando con la Biblioteca Pública de Boston para escanear millones de artículos de dominio público de varios periódicos. La institución dijo que está dispuesta a establecer colaboraciones similares en el futuro. La forma exacta en que se publicará el conjunto de datos de libros aún no se ha determinado. La IDI ha solicitado la participación de Google en la distribución pública, pero el gigante de las búsquedas aún no ha acordado públicamente alojar el conjunto de datos, aunque Harvard se muestra optimista al respecto. (Google no respondió a la solicitud de comentarios de WIRED).
Independientemente de cómo se publique el conjunto de datos de la IDI, se unirá a una serie de proyectos, empresas e iniciativas similares que buscan proporcionar a las empresas una gran cantidad de material de entrenamiento de IA de alta calidad sin el riesgo de problemas de derechos de autor. Empresas como Calliope Networks y ProRata ya han surgido, emitiendo licencias y diseñando planes de compensación destinados a remunerar a los creadores y titulares de derechos por proporcionar datos de entrenamiento de IA.
Además, existen otros nuevos proyectos de dominio público. La primavera pasada, la startup francesa de IA Pleis lanzó su propio conjunto de datos de dominio público, Common Corpus, que según Pierre-Carl Langlais, coordinador del proyecto, contiene entre 3 y 4 millones de libros y revistas. Respaldado por el Ministerio de Cultura francés, Common Corpus ha sido descargado más de 60.000 veces este mes en la plataforma de IA de código abierto Hugging Face. La semana pasada, Pleis anunció que lanzará sus primeros modelos de lenguaje grandes entrenados con este conjunto de datos, que Langlais dijo a WIRED constituyen "los primeros modelos entrenados completamente con datos abiertos y conformes con la ley de IA de la [Unión Europea]".
Actualmente, también se está trabajando en la creación de conjuntos de datos de imágenes similares. La startup de IA Spawning lanzó este verano un conjunto de datos llamado Source.Plus, que contiene imágenes de dominio público de Wikimedia Commons, así como de varios museos y archivos. Durante mucho tiempo, algunas instituciones culturales importantes (como el Museo Metropolitano de Arte) también han abierto sus archivos al público a través de proyectos independientes.
Ed Newton-Rex, ex ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de IA éticas, dijo que el auge de estos conjuntos de datos muestra que es posible construir modelos de IA de alto rendimiento y alta calidad sin robar material protegido por derechos de autor. OpenAI había dicho anteriormente a los legisladores británicos que era "imposible" crear productos como ChatGPT sin utilizar obras protegidas por derechos de autor. "Grandes conjuntos de datos de dominio público como este desmantelan aún más la 'defensa de necesidad' que algunas empresas de IA utilizan para justificar la extracción de obras protegidas por derechos de autor para entrenar sus modelos", dijo Newton-Rex.
Pero aún mantiene reservas sobre si la IDI y proyectos similares realmente cambiarán el panorama del entrenamiento. "Estos conjuntos de datos solo tendrán un impacto positivo si se combinan con otros datos con licencia para reemplazar las obras protegidas por derechos de autor que se extraen. Si simplemente se agregan a un conjunto de datos mixto, que también incluye el trabajo de toda la vida de creadores de todo el mundo sin su permiso, beneficiarán principalmente a las empresas de IA", dijo.