O Instituto de Pesquisa de Inteligência Artificial de Pequim e o Instituto de Pesquisa de Inteligência Artificial da China Telecom (TeleAI) lançaram recentemente uma atualização para a série de grandes modelos Tele-FLM, apresentando o modelo de instruções FLM-2-52B-Instruct de 52 bilhões de parâmetros e o Tele-FLM-1T, o primeiro modelo denso monolítico de trilhão de parâmetros do mundo, disponibilizando também relatórios técnicos e checkpoints do modelo como código aberto.
O FLM-2-52B-Instruct é um modelo de diálogo instrucional obtido por meio de ajuste fino de instruções baseado no modelo base Tele-FLM-52B, focando na melhoria da capacidade de diálogo em chinês. Treinado com 1 milhão de dados de instruções de código aberto por meio de ajuste fino supervisionado, os melhores resultados foram obtidos com um subconjunto de 30.000 dados. Esses dados incluem problemas matemáticos, códigos e dados de diálogo de múltiplas rodadas. O treinamento do modelo utilizou configurações específicas de tamanho de lote, taxa de aprendizado e épocas, e foi avaliado na plataforma de avaliação AlignBench. Os resultados mostram que o FLM-2-52B-Instruct atingiu 90% da capacidade de diálogo em chinês do GPT-4.
O Tele-FLM-1T é o primeiro modelo denso de trilhão de parâmetros de código aberto do mundo, utilizando pré-treinamento de crescimento para reduzir custos. A estrutura do modelo foi aprimorada com base nos transformadores decoder-only da série GPT, incluindo a adição de multiplicadores de entrada e saída, codificação posicional rotacional, RMSNorm e SwiGLU. A estratégia de crescimento inclui crescimento horizontal e vertical, utilizando um operador de preservação de valor baseado em MSG. O pré-treinamento utilizou configurações específicas de hiperparâmetros.
Link para o código aberto do modelo FLM-2-52B-Instruct:
https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407
Link para o código aberto do modelo Tele-FLM-1T:
https://huggingface.co/CofeAI/Tele-FLM-1T
Link para o relatório técnico 52B + 1T:
https://arxiv.org/abs/2407.02783
Link para o relatório técnico do modelo base 52B:
https://arxiv.org/abs/2404.16645