Este é um modelo de linguagem grande pré-treinado e bilíngue com 13 bilhões de parâmetros, que suporta árabe e inglês. Foi treinado em um conjunto de dados de 72 bilhões de tokens em árabe e 279 bilhões de tokens em inglês/código. Os dados em árabe foram iterados por 1,6 épocas (em comparação com 1 época para inglês/código), totalizando 395 bilhões de tokens de treinamento. O modelo é baseado na arquitetura Transformer decoder-only (GPT-3), usando a função de ativação não linear SwiGLU. Ele implementa a incorporação posicional ALiBi, que pode extrapolar para comprimentos de sequência longos, proporcionando melhor processamento de contexto e precisão do modelo.