LLaMA-O1 est un framework de modèle d'inférence à grande échelle qui combine des techniques telles que la recherche d'arbre Monte-Carlo (MCTS), l'apprentissage par renforcement autodidacte, et PPO. Il s'inspire du paradigme de double stratégie d'AlphaGo Zero et des grands modèles linguistiques. Ce modèle est principalement destiné aux problèmes de raisonnement mathématique de niveau olympique et offre une plateforme ouverte pour l'entraînement, l'inférence et l'évaluation. Il s'agit d'un projet expérimental personnel, sans lien avec aucune organisation ou institution tierce.