Recientemente, el equipo de investigación de Nous Research ha brindado una emocionante noticia al mundo de la tecnología: han presentado un nuevo optimizador llamado DisTrO (Distributed Internet Training). Este avance tecnológico significa que los poderosos modelos de IA ya no son exclusivos de las grandes empresas; ahora, cualquier persona puede entrenarlos de manera eficiente desde su casa utilizando su propia computadora.
La magia de DisTrO radica en su capacidad para reducir significativamente la cantidad de información que necesita ser transferida entre múltiples unidades de procesamiento gráfico (GPU) durante el entrenamiento de modelos de IA. Gracias a esta innovación, los modelos de IA potentes pueden entrenarse con conexiones a internet comunes, e incluso permite la colaboración entre personas u organizaciones de todo el mundo para desarrollar conjuntamente tecnología de IA.
Según el artículo técnico de Nous Research, la mejora de eficiencia de DisTrO es asombrosa: su eficiencia de entrenamiento es 857 veces superior a la de un algoritmo común, All-Reduce, y la cantidad de información transferida por cada paso de entrenamiento se reduce de 74.4 GB a 86.8 MB. Esta mejora no solo hace que el entrenamiento sea más rápido y económico, sino que también permite que más personas participen en este campo.
Nous Research declaró en sus redes sociales que, gracias a DisTrO, los investigadores y las instituciones ya no dependen de una sola empresa para gestionar y controlar el proceso de entrenamiento, lo que les proporciona mayor libertad para innovar y experimentar. Este entorno de competencia abierta ayuda a impulsar el progreso tecnológico, beneficiando en última instancia a toda la sociedad.
En el entrenamiento de IA, las necesidades de hardware a menudo resultan desalentadoras. Especialmente las GPU Nvidia de alto rendimiento se han vuelto cada vez más escasas y costosas en la actualidad, y solo algunas empresas con grandes recursos económicos pueden afrontar la carga de este entrenamiento. Sin embargo, la filosofía de Nous Research es completamente diferente: se dedican a abrir el entrenamiento de modelos de IA al público a un coste menor, esforzándose por que más personas puedan participar.
DisTrO funciona reduciendo la necesidad de sincronización de gradientes completos entre las GPU, disminuyendo los gastos de comunicación en cuatro o cinco órdenes de magnitud. Esta innovación permite que los modelos de IA se entrenen con conexiones a internet más lentas; velocidades de descarga de 100 Mbps y de subida de 10 Mbps, fácilmente accesibles en muchos hogares, son suficientes.
En pruebas preliminares con el modelo de lenguaje grande Llama2 de Meta, DisTrO mostró resultados de entrenamiento comparables a los métodos tradicionales, pero con una reducción significativa en la cantidad de comunicación necesaria. Los investigadores también señalan que, aunque las pruebas se realizaron actualmente en modelos más pequeños, suponen que, a medida que aumente el tamaño del modelo, la reducción de las necesidades de comunicación podría ser aún más significativa, llegando incluso a 1000 o 3000 veces.
Cabe destacar que, aunque DisTrO hace que el entrenamiento sea más flexible, sigue dependiendo del soporte de las GPU; la diferencia es que ahora estas GPU no necesitan estar juntas en un mismo lugar, sino que pueden estar distribuidas por todo el mundo, colaborando a través de internet convencional. Hemos observado que DisTrO, en pruebas rigurosas con 32 GPU H100, puede igualar la velocidad de convergencia del método tradicional AdamW+All-Reduce, pero reduciendo drásticamente las necesidades de comunicación.
DisTrO no solo es aplicable a modelos de lenguaje grandes, sino que también podría utilizarse para entrenar otros tipos de IA, como modelos de generación de imágenes, lo que hace que sus perspectivas futuras sean prometedoras. Además, al mejorar la eficiencia del entrenamiento, DisTrO también podría reducir el impacto ambiental del entrenamiento de IA, ya que optimiza el uso de las infraestructuras existentes y reduce la necesidad de grandes centros de datos.
Con DisTrO, Nous Research no solo ha impulsado el progreso tecnológico en el entrenamiento de IA, sino que también ha fomentado un ecosistema de investigación más abierto y flexible, abriendo un sinfín de posibilidades para el futuro desarrollo de la IA.