El gigante tecnológico ruso Yandex ha lanzado recientemente a la comunidad global de IA su herramienta YaFSDP de desarrollo propio, el método de optimización de entrenamiento de modelos lingüísticos grandes (LLM) más eficiente del sector hasta la fecha. En comparación con la tecnología FSDP ampliamente utilizada en la industria, YaFSDP puede aumentar la velocidad de entrenamiento de LLM hasta en un 26%, lo que podría ahorrar a los desarrolladores e empresas de IA una gran cantidad de recursos de GPU.

YaFSDP (Yandex Full Sharded Data Parallel) es una versión mejorada de FSDP desarrollada por Yandex, que se centra en optimizar la eficiencia de la comunicación de la GPU y el uso de la memoria, eliminando los cuellos de botella en el proceso de entrenamiento de LLM. En tareas intensivas en comunicación, como el preentrenamiento, la alineación y el ajuste fino, YaFSDP muestra una mejora de rendimiento excepcional, especialmente cuando el tamaño de los parámetros de entrenamiento alcanza los 300 a 700 millones.

IA, Inteligencia Artificial, Robot, 2024d9dc94358d8e

Nota de la fuente: Imagen generada por IA, proveedora Midjourney.

Mikhail Khruschev, experto en desarrollo senior de Yandex y miembro del equipo YaFSDP, afirma: "YaFSDP es ideal para los modelos de código abierto ampliamente utilizados basados en la arquitectura LLaMA. Seguimos trabajando en su optimización y ampliación de su versatilidad en diferentes arquitecturas de modelos y tamaños de parámetros, con el objetivo de mejorar la eficiencia del entrenamiento en un rango más amplio de escenarios."

Se estima que, para entrenar un modelo con 700 millones de parámetros, el uso de YaFSDP puede ahorrar aproximadamente 150 GPU, lo que equivale a un ahorro mensual de entre 500.000 y 1.500.000 dólares en costes de computación. Este ahorro de costes podría hacer que el entrenamiento de LLM autónomo sea más viable para las pequeñas y medianas empresas y los desarrolladores individuales.

Al mismo tiempo, Yandex se compromete a seguir contribuyendo al desarrollo de la comunidad global de IA, y la publicación de YaFSDP es una muestra de este compromiso. Anteriormente, la empresa ya había compartido varias herramientas de IA de código abierto muy apreciadas, como la biblioteca de aumento de gradiente de alto rendimiento CatBoost, el algoritmo de compresión de modelos extremos AQLM y la biblioteca de simplificación de entrenamiento de modelos Petals.

Analistas del sector señalan que, a medida que aumenta el tamaño de los LLM, la mejora de la eficiencia del entrenamiento se convertirá en un factor clave para el desarrollo de la inteligencia artificial. Los avances tecnológicos como YaFSDP podrían ayudar a la comunidad de IA a avanzar más rápidamente en la investigación de modelos grandes y a explorar sus aplicaciones potenciales en el procesamiento del lenguaje natural, la visión por computadora y otros campos.