LLaDA é um novo tipo de modelo de difusão que gera texto por meio de um processo de difusão, diferente dos modelos autoregressivos tradicionais. Ele apresenta um desempenho excelente em escalabilidade de geração de linguagem, atendimento a instruções, aprendizado de contexto, capacidade de diálogo e capacidade de compressão. O modelo foi desenvolvido por pesquisadores da Universidade do Povo Chinês e do Grupo Ant, tem 8B de escala e foi treinado totalmente do zero. Suas principais vantagens são a capacidade de gerar texto de forma flexível por meio do processo de difusão, suportando várias tarefas de idiomas, como resolução de problemas matemáticos, geração de código, tradução e diálogo multiturno. O surgimento do LLaDA fornece uma nova direção para o desenvolvimento de modelos de linguagem, especialmente em termos de qualidade e flexibilidade de geração.