Steiner es una serie de modelos de razonamiento desarrollada por Yichao 'Peak' Ji, que se centra en el entrenamiento con datos sintéticos mediante aprendizaje por refuerzo, capaz de explorar múltiples caminos y verificarlos o retroceder de forma autónoma durante el razonamiento. El objetivo del modelo es reproducir la capacidad de razonamiento de OpenAI o1 y verificar la curva de escalabilidad durante el razonamiento. Steiner-preview es un proyecto en curso; su propósito de código abierto es compartir conocimiento y obtener más comentarios de usuarios reales. Aunque el modelo ha mostrado un rendimiento excelente en algunas pruebas de referencia, aún no ha logrado completamente la capacidad de escalabilidad de razonamiento de OpenAI o1, por lo que aún se encuentra en fase de desarrollo.