Baichuan 3, da Baichuan Intelligence, é um modelo de linguagem grande com mais de 100 bilhões de parâmetros que demonstrou excelente desempenho em diversos benchmarks de capacidade geral, superando o GPT-4, especialmente em tarefas em chinês. Apresenta desempenho superior em processamento de linguagem natural, geração de código e tarefas médicas, empregando diversas técnicas inovadoras para aprimorar suas capacidades, incluindo seleção dinâmica de dados, preservação de importância e armazenamento de CheckPoint assíncrono. Durante o treinamento, foi utilizada uma solução de seleção dinâmica de dados de treinamento com amostragem causal, garantindo a qualidade dos dados; foi introduzido um método de inicialização gradual com preservação de importância, otimizando a estabilidade do treinamento do modelo; e foram realizadas diversas otimizações para o problema de treinamento paralelo, com aumento de desempenho superior a 30%.