Search-R1 es un marco de aprendizaje por refuerzo diseñado para entrenar modelos de lenguaje (LLM) capaces de realizar razonamiento y llamar a motores de búsqueda. Se basa en veRL, admite varios métodos de aprendizaje por refuerzo y diferentes arquitecturas de LLM, lo que proporciona eficiencia y escalabilidad en la investigación y el desarrollo de razonamiento mejorado con herramientas.