लाइट-R1 Qihoo360 द्वारा विकसित एक ओपन-सोर्स प्रोजेक्ट है, जिसका उद्देश्य पाठ्यक्रम-आधारित पर्यवेक्षित ठीक-ट्यूनिंग (SFT), प्रत्यक्ष वरीयता अनुकूलन (DPO) और प्रबलित अधिगम (RL) के माध्यम से लंबी श्रृंखला तर्क मॉडल को प्रशिक्षित करना है। यह प्रोजेक्ट डेटासेट को शुद्ध करके और कुशल प्रशिक्षण विधियों का उपयोग करके, शुरुआत से ही लंबी श्रृंखला तर्क क्षमता प्राप्त करता है। इसके मुख्य लाभों में ओपन-सोर्स प्रशिक्षण डेटा, कम लागत वाली प्रशिक्षण विधि और गणितीय तर्क क्षेत्र में उत्कृष्ट प्रदर्शन शामिल हैं। यह प्रोजेक्ट वर्तमान लंबी श्रृंखला तर्क मॉडल प्रशिक्षण आवश्यकताओं पर आधारित है, जिसका उद्देश्य एक पारदर्शी और पुनरावृत्ति योग्य प्रशिक्षण विधि प्रदान करना है। यह प्रोजेक्ट वर्तमान में मुफ्त और ओपन-सोर्स है, जो अनुसंधान संस्थानों और डेवलपर्स के लिए उपयुक्त है।