Recientemente, la empresa de investigación de inteligencia artificial Epoch AI lanzó un simulador interactivo diseñado específicamente para simular la capacidad de computación necesaria para entrenar modelos de lenguaje grandes. A través de este simulador, los investigadores descubrieron que, aunque es posible entrenar GPT-4 usando tarjetas gráficas antiguas de 2012 (como la GTX580), el costo sería diez veces mayor que con el hardware moderno actual.
El estudio de Epoch AI muestra que el número de operaciones de punto flotante (FLOP) necesarias para entrenar GPT-4 está entre 1e25 y 1e26. Para llevar a cabo esta investigación, el simulador analizó la eficiencia de diferentes tarjetas gráficas, especialmente su rendimiento al aumentar el tamaño del modelo. Los resultados indican que, a medida que el modelo crece, la eficiencia suele disminuir. Como ejemplo, la tarjeta gráfica H100, lanzada en los últimos años, mantiene una alta eficiencia durante más tiempo, mientras que la V100 muestra una disminución de eficiencia más pronunciada al enfrentarse a entrenamientos a mayor escala.
En los experimentos de Epoch AI, la tarjeta gráfica GTX580 tenía solo 3 GB de memoria. Esta tarjeta fue una opción popular en 2012 para entrenar el modelo AlexNet. A pesar del avance tecnológico, los investigadores consideran que es posible entrenar a una escala tan grande con hardware antiguo, aunque los recursos y el costo serían extremadamente altos.
Además, este simulador permite simular entrenamientos complejos en múltiples centros de datos. Los usuarios pueden personalizar parámetros como el tamaño, la latencia y el ancho de banda de conexión de los centros de datos, para simular ejecuciones de entrenamiento en múltiples ubicaciones. Esta herramienta también permite analizar las diferencias de rendimiento entre tarjetas gráficas modernas (como H100 y A100), estudiar los efectos de diferentes tamaños de lote y el entrenamiento con múltiples GPU, y generar archivos de registro detallados que registran la salida del modelo.
Epoch AI afirma que el objetivo del desarrollo de este simulador es profundizar en la comprensión de las mejoras en la eficiencia del hardware y evaluar el impacto de las restricciones a la exportación de chips. Con el aumento previsto de las tareas de entrenamiento a gran escala en este siglo, comprender los requisitos de hardware futuros se vuelve especialmente importante.
Puntos clave:
💻 Una tarjeta gráfica GTX580 de 2012 puede entrenar GPT-4 con un costo diez veces mayor, pero con baja eficiencia.
📊 El simulador puede analizar las diferencias de rendimiento entre diferentes GPU y admite la simulación de entrenamiento en múltiples centros de datos.
🔍 Esta investigación tiene como objetivo mejorar la comprensión de las futuras necesidades de hardware para facilitar el entrenamiento de modelos de IA a gran escala.