Search-R1 एक प्रबलित अधिगम ढाँचा है, जिसका उद्देश्य ऐसे भाषा मॉडल (LLMs) को प्रशिक्षित करना है जो अनुमान लगा सकें और खोज इंजन को कॉल कर सकें। यह veRL पर आधारित है, कई प्रबलित अधिगम विधियों और विभिन्न LLM आर्किटेक्चर का समर्थन करता है, जिससे उपकरण-वर्धित अनुमान अनुसंधान और विकास में दक्षता और स्केलेबिलिटी आती है।