Un nuevo estudio revela que los modelos de IA están perdiendo gradualmente el acceso a los datos de entrenamiento de la web. Este estudio, realizado por la Iniciativa de Procedencia de Datos (Data Provenance Initiative), muestra que entre abril de 2023 y abril de 2024, la proporción de contenido completamente bloqueado en los datos de entrenamiento de IA aumentó de aproximadamente el 1% al 5-7%. Esta tendencia podría llevar a que los modelos de IA futuros solo aprendan de información más escasa, sesgada y obsoleta.

Código, Internet, Computadora

Nota de la imagen: Imagen generada por IA, proveedora de servicios de licencias Midjourney

El estudio analizó los archivos robots.txt y los términos de uso de 14.000 dominios web, fuentes de conjuntos de datos de entrenamiento de IA populares (como C4, RefinedWeb y Dolma).

El estudio encontró que los sitios web de noticias, foros y plataformas de redes sociales son las principales fuentes que restringen el acceso a los datos de IA. La proporción de bloqueo en los sitios web de noticias aumentó drásticamente del 3% al 45%. Esto significa que el contenido informativo de alta calidad podría disminuir en los datos de entrenamiento de IA, siendo reemplazado por contenido de baja calidad de sitios web empresariales y de comercio electrónico.

Este fenómeno representa un desafío para los desarrolladores de IA, ya que los datos de alta calidad son cruciales para entrenar modelos excelentes. Sin embargo, los proveedores de contenido de alta calidad también podrían encontrar nuevas fuentes de ingresos mediante acuerdos de licencia con empresas de IA.

Incluso Mark Zuckerberg, CEO de Meta, ha declarado que obtener suficientes datos con derechos de autor para entrenar un buen modelo de IA es casi imposible o extremadamente costoso.

Sin un fallo a favor del uso justo, esta situación podría empeorar. OpenAI recientemente llegó a acuerdos multimillonarios con varias editoriales para obtener su contenido para visualización en tiempo real y entrenamiento de IA. Se espera que otras empresas sigan este ejemplo, a menos que haya cambios significativos en las decisiones judiciales.

Puntos clave:

  • 🛑 Restricciones de acceso a datos intensificadas: Entre 2023 y 2024, la proporción de contenido bloqueado en los datos de entrenamiento de IA aumentó significativamente; el bloqueo en sitios web de noticias pasó del 3% al 45%.

  • 📉 Disminución de datos de alta calidad: La proporción de contenido informativo de alta calidad en los datos de entrenamiento de IA está disminuyendo, posiblemente reemplazado por contenido empresarial y de comercio electrónico de baja calidad.

  • 💸 Altos costos y problemas de licencias: Obtener suficientes datos para el entrenamiento de IA es costoso; OpenAI y Meta enfrentan desafíos, mientras que los proveedores de contenido de alta calidad podrían encontrar nuevas fuentes de ingresos mediante acuerdos de licencia.