Recientemente, Epochai, una institución de investigación centrada en AIGC, publicó un importante informe de investigación. El informe afirma que los conjuntos de datos de entrenamiento de texto de alta calidad públicamente disponibles para los humanos suman aproximadamente 300 billones de tokens. ¡Pero a medida que el apetito de los grandes modelos como ChatGPT crece, es posible que estos datos se agoten entre 2026 y 2032!

22.jpg

Los investigadores señalan específicamente que el "entrenamiento excesivo" es el principal culpable del consumo acelerado de los datos de entrenamiento. ¡Por ejemplo, el entrenamiento excesivo de la versión de 8B del modelo Llama3 de Meta recientemente lanzado en código abierto llegó a la asombrosa cifra de 100 veces! Si todos los modelos hicieran esto, nuestros datos podrían desaparecer en 2025.

2.jpg

Pero no se preocupen, todavía hay soluciones. Epoch ai propone cuatro nuevos métodos para obtener datos de entrenamiento, haciendo que la "escasez de datos" en el mundo de la IA deje de ser una pesadilla.

1) Datos sintéticos: Al igual que una comida preparada con un kit de cocina, los datos sintéticos utilizan el aprendizaje profundo para simular datos reales y generar datos completamente nuevos. Pero no se emocionen demasiado, la calidad de los datos sintéticos puede ser inconsistente, propensa al sobreajuste y carecer de las sutiles características lingüísticas del texto real.

2) Aprendizaje de datos multimodales e interdisciplinarios: Este método no se limita al texto, sino que incluye varios tipos de datos como imágenes, videos y audio. Al igual que en un karaoke, donde se puede cantar, bailar e interpretar, el aprendizaje multimodal permite que los modelos comprendan y procesen tareas complejas de manera más completa.

3) Datos privados: Actualmente, la cantidad total de datos de texto privados en todo el mundo es de aproximadamente 3100 billones de tokens, ¡más de 10 veces la cantidad de datos públicos! Pero el uso de datos privados requiere precaución, ya que la privacidad y la seguridad son cruciales. Además, el proceso de obtención e integración de datos no públicos puede ser muy complejo.

4) Aprendizaje interactivo en tiempo real con el mundo real: Permitir que los modelos aprendan y mejoren a través de la interacción directa con el mundo real. Este método requiere que los modelos tengan autonomía y adaptabilidad, que puedan comprender con precisión las instrucciones del usuario y actuar en el mundo real.