Recientemente, la escasez de datos de entrenamiento para modelos de IA ha vuelto a ser un tema central en los medios de comunicación. Un artículo reciente de The Economist, titulado "Las empresas de IA pronto agotarán la mayoría de los datos de internet", ha generado un amplio debate en la industria. El artículo señala que, a medida que se agota la información de alta calidad en internet, el campo de la IA se enfrenta al desafío de un "muro de datos".
La empresa de investigación Epoch AI predice que para 2028 se habrán agotado todos los datos de texto de alta calidad en internet, y que los conjuntos de datos de aprendizaje automático podrían agotar todos los "datos lingüísticos de alta calidad" antes de 2026. Este fenómeno del "muro de datos" se ha convertido en un problema importante para las empresas de IA, y podría ralentizar su progreso de entrenamiento.
Nota de la fuente: La imagen fue generada por IA, proveedor de servicios de licencias de imágenes Midjourney
La industria ya había advertido sobre este problema. En julio de 2023, el profesor Stuart Russell de la Universidad de California, Berkeley, advirtió que los robots impulsados por IA como ChatGPT podrían "agotar el texto del universo" en poco tiempo. Sin embargo, también existen opiniones diferentes. En mayo de 2024, la profesora Fei-Fei Li de la Universidad de Stanford, afirmó que todavía hay una gran cantidad de datos diferenciados esperando ser explotados para construir modelos más personalizados.
Para abordar la escasez de datos, el uso de datos sintéticos se presenta como una posible solución. Pero un artículo publicado recientemente en la revista Nature señala que el entrenamiento de las futuras generaciones de modelos de aprendizaje automático con conjuntos de datos generados por IA podría provocar un "colapso del modelo", haciendo que el modelo malinterprete la realidad. El equipo de investigación recomienda conservar parte de los datos originales en los datos de entrenamiento, utilizar fuentes de datos diversificadas e investigar algoritmos de entrenamiento más robustos.
Cómo superar la limitación del "muro de datos" y asegurar un suministro continuo de datos de entrenamiento de alta calidad se ha convertido en una cuestión urgente para la industria de la IA. Esto requiere no solo innovación tecnológica, sino también el esfuerzo conjunto de gobiernos, empresas e instituciones de investigación. A medida que la tecnología de IA se integra cada vez más en todos los sectores, la solución al problema de la escasez de datos tendrá un profundo impacto en el desarrollo continuo y saludable de la IA.