Light-R1 ist ein Open-Source-Projekt von Qihoo360, das darauf abzielt, Long-Chain-Inferenzmodelle durch kursbasiertes Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und Reinforcement Learning (RL) zu trainieren. Durch die Verwendung von bereinigten Datensätzen und effizienten Trainingsmethoden wurde die Fähigkeit zur Long-Chain-Inferenz von Grund auf neu realisiert. Zu den Hauptvorteilen gehören Open-Source-Trainingsdaten, kostengünstige Trainingsmethoden und eine hervorragende Leistung im Bereich des mathematischen Schließens. Der Projektkontext basiert auf dem aktuellen Bedarf an Training von Long-Chain-Inferenzmodellen und zielt darauf ab, eine transparente und reproduzierbare Trainingsmethode bereitzustellen. Das Projekt ist derzeit kostenlos und Open Source und eignet sich für Forschungsinstitute und Entwickler.