Taotian Group, en colaboración con Ai Cheng Technology, ha lanzado como código abierto el framework de entrenamiento de modelos grandes Megatron-LLaMA. Su objetivo es mejorar el rendimiento del entrenamiento de modelos de lenguaje grandes, reducir los costes de entrenamiento y mantener la compatibilidad con la comunidad LLaMA. El framework logra una aceleración del 176% en el entrenamiento con 32 tarjetas, mostrando además una alta tolerancia a la inestabilidad de la red. Megatron-LLaMA se centrará en la selección óptima de configuraciones adaptativas, el soporte para modificaciones en la estructura del modelo y soluciones de entrenamiento de alto rendimiento en diferentes entornos de hardware.