Recientemente, ha ocurrido algo extraño en el mundo de la IA, como si un influencer gastronómico de repente empezara a comer sus propios platos, volviéndose cada vez más adicto y la comida cada vez más desagradable. Es algo bastante alarmante, y en términos profesionales se conoce como colapso del modelo (model collapse).

¿Qué es el colapso del modelo? En pocas palabras, es un círculo vicioso en el que un modelo de IA, durante su entrenamiento, utiliza en gran medida sus propios datos generados, lo que lleva a una disminución progresiva de la calidad de los resultados hasta su completo fracaso.

Es como un ecosistema cerrado donde el modelo de IA es el único ser vivo, y la comida que produce son los datos. Al principio, puede encontrar algunos ingredientes naturales (datos reales), pero con el tiempo empieza a depender cada vez más de ingredientes "artificiales" (datos sintéticos) que él mismo produce. El problema es que estos ingredientes "artificiales" carecen de nutrientes y presentan defectos inherentes al propio modelo. Con el consumo excesivo, el "cuerpo" del modelo de IA se deteriora y sus creaciones se vuelven cada vez más absurdas.

image.png

Este artículo de investigación analiza el fenómeno del colapso del modelo e intenta responder a dos preguntas clave:

  • ¿Es inevitable el colapso del modelo? ¿Se puede solucionar combinando datos reales y datos sintéticos?

  • ¿Cuanto más grande es el modelo, más propenso es a colapsar?

Para investigar estas cuestiones, los autores del artículo diseñaron una serie de experimentos y utilizaron un modelo de proyección aleatoria para simular el proceso de entrenamiento de una red neuronal. Descubrieron que incluso el uso de una pequeña parte de datos sintéticos (por ejemplo, el 1%) puede provocar el colapso del modelo. Peor aún, a medida que aumenta el tamaño del modelo, el fenómeno del colapso se agrava.

image.png

Es como si un influencer gastronómico, para llamar la atención, empezara a probar ingredientes extraños, y terminara con problemas estomacales. Para remediarlo, aumenta la cantidad de comida y prueba cosas aún más extrañas, empeorando su situación hasta tener que abandonar su canal.

Entonces, ¿cómo podemos evitar el colapso del modelo?

Los autores del artículo sugieren:

  • Priorizar los datos reales: Los datos reales son como ingredientes naturales, ricos en nutrientes, esenciales para el desarrollo saludable de un modelo de IA.

  • Utilizar con precaución los datos sintéticos: Los datos sintéticos son como ingredientes artificiales, que pueden complementar la nutrición, pero no se debe depender excesivamente de ellos, ya que puede ser contraproducente.

  • Controlar el tamaño del modelo: Cuanto más grande es el modelo, mayor es su apetito y mayor la probabilidad de sufrir problemas. Al usar datos sintéticos, se debe controlar el tamaño del modelo para evitar una sobrealimentación.

El colapso del modelo es un nuevo desafío en el desarrollo de la IA, que nos recuerda que, al buscar la escala y la eficiencia del modelo, también debemos prestar atención a la calidad de los datos y a la salud del modelo. Solo así podremos garantizar un desarrollo continuo y saludable de los modelos de IA, creando un mayor valor para la sociedad humana.

Artículo: https://arxiv.org/pdf/2410.04840