El Instituto de Investigación de Inteligencia Artificial de Beijing y el Instituto de Investigación de Inteligencia Artificial de China Telecom (TeleAI) han actualizado recientemente su serie de modelos grandes Tele-FLM, lanzando el modelo de instrucciones FLM-2-52B-Instruct de 52B y el primer modelo denso unitario de un billón de parámetros del mundo, Tele-FLM-1T, y publicando el informe técnico y los puntos de control del modelo como código abierto.

FLM-2-52B-Instruct es un modelo de diálogo instructivo obtenido mediante el ajuste fino de instrucciones del modelo base Tele-FLM-52B, centrado en mejorar la capacidad de diálogo en chino. A través del ajuste fino supervisado, se entrenó utilizando un millón de datos de instrucciones de código abierto, obteniendo los mejores resultados con un subconjunto de 30.000 datos. Estos datos incluyen problemas matemáticos, código y datos de diálogo de varias rondas. El entrenamiento del modelo utilizó un tamaño de lote, una tasa de aprendizaje y una configuración de épocas específicas, y se evaluó en la plataforma de evaluación AlignBench. Los resultados muestran que FLM-2-52B-Instruct alcanzó el 90% de la capacidad de diálogo en chino de GPT-4.

Tele-FLM-1T es el primer modelo denso de un billón de parámetros de código abierto del mundo, que utiliza el preentrenamiento de crecimiento para ahorrar costes. La estructura del modelo se ha mejorado sobre la base de los transformadores de solo decodificador de la serie GPT, incluyendo la adición de multiplicadores de entrada y salida, codificación de posición rotacional, RMSNorm y SwiGLU, entre otros. La estrategia de crecimiento incluye crecimiento horizontal y vertical, utilizando un operador de conservación basado en la mejora de MSG. Durante el preentrenamiento se utilizaron parámetros hiperparamétricos específicos.

Enlace de código abierto del modelo FLM-2-52B-Instruct:

https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407

Enlace de código abierto del modelo Tele-FLM-1T:

https://huggingface.co/CofeAI/Tele-FLM-1T

Enlace del informe técnico 52B + 1T:

https://arxiv.org/abs/2407.02783

Enlace del informe técnico del modelo base 52B:

https://arxiv.org/abs/2404.16645