Baidu Smart Cloud ha encendido recientemente el primer clúster de 10,000 tarjetas Kunlun Chip de tercera generación de desarrollo propio en China. Este avance histórico no solo marca un paso importante para Baidu en el campo de la potencia de cálculo de la inteligencia artificial, sino que también proporciona nuevas ideas de desarrollo para toda la industria. Con el continuo progreso de la tecnología, el aumento de la potencia de cálculo es crucial para admitir el entrenamiento y la aplicación de modelos a gran escala.

Durante el año pasado, con la popularización de la tecnología de IA, muchas empresas se enfrentaron a problemas de escasez de potencia de cálculo, lo que provocó directamente un aumento en el costo de uso de los modelos a gran escala. Baidu declaró que, mediante el desarrollo propio de chips y la construcción de clústeres de 10,000 tarjetas, no solo resolvieron eficazmente sus propios problemas de suministro de potencia de cálculo, sino que también proporcionaron referencias y apoyo a otras empresas. Los clústeres de 10,000 tarjetas tienen la capacidad de cálculo paralelo a gran escala, lo que puede mejorar significativamente la eficiencia del entrenamiento, especialmente al entrenar modelos complejos con miles de millones de parámetros, acortando considerablemente el ciclo de entrenamiento.

Centro de datos Supercomputadora (2)

Nota de la fuente de la imagen: La imagen fue generada por IA, el proveedor de servicios de autorización de imágenes es Midjourney

La aplicación del clúster de 10,000 tarjetas satisfará las necesidades de rápida iteración de las aplicaciones nativas de IA, y también puede admitir el procesamiento de modelos con billones de parámetros y datos multimodales, proporcionando un poderoso motor para el desarrollo de aplicaciones similares a Sora. Además, la capacidad de concurrencia multitarea del clúster de 10,000 tarjetas le permite entrenar simultáneamente varios modelos ligeros mediante la división dinámica de recursos, logrando así una utilización eficiente de la potencia de cálculo. Esta innovación de Baidu Smart Cloud no solo mejora la tasa de utilización integral del clúster, sino que también reduce considerablemente el costo de la potencia de cálculo por unidad.

Sin embargo, en el pasado, problemas como el entrenamiento mixto de múltiples chips y el aumento de la tasa de fallos fueron los principales desafíos en el proceso de implementación del clúster de 10,000 tarjetas. Para resolver estos problemas, Baidu lanzó en septiembre de 2024 la versión mejorada de la plataforma de computación heterogénea de IA Baige 4.0, que jugó un papel crucial en la construcción del clúster de 10,000 tarjetas. Mediante la optimización del modelo, las estrategias de paralelismo y la asignación dinámica de recursos, Baidu Smart Cloud está impulsando la utilización efectiva de la potencia de cálculo, sentando las bases para futuras aplicaciones de IA.

El éxito de Baidu Smart Cloud no solo demuestra su capacidad de desarrollo propio, sino que también inyecta una nueva fuerza impulsora en el floreciente desarrollo de los grandes modelos nacionales. En el futuro, con la continua expansión y optimización del clúster de 10,000 tarjetas, esperamos que se implementen más aplicaciones innovadoras de IA, creando nuevas oportunidades para el desarrollo de la industria.