Baichuan 3 de Baichuan Intelligence est un modèle linguistique de grande taille doté de plus de mille milliards de paramètres. Il a démontré d'excellentes performances lors de plusieurs évaluations de capacités générales faisant autorité, surpassant même GPT-4 sur les tâches en chinois. Il excelle dans le traitement du langage naturel, la génération de code et les tâches médicales. Il intègre plusieurs techniques innovantes pour améliorer ses capacités, notamment la sélection dynamique des données, la préservation de l'importance et le stockage asynchrone des points de contrôle. Durant l'entraînement, une solution de sélection dynamique des données d'entraînement par échantillonnage causal a été adoptée pour garantir la qualité des données ; une méthode d'initialisation progressive préservant l'importance a été introduite pour optimiser la stabilité de l'entraînement du modèle ; et une série d'optimisations ont été menées pour résoudre les problèmes d'entraînement parallèle, entraînant une amélioration des performances de plus de 30%.