OLMo-2-1124-13B-DPO एक 13B-पैरामीटर बड़ा भाषा मॉडल है जिसे पर्यवेक्षित ठीक-ठीक समायोजन और DPO प्रशिक्षण दिया गया है, मुख्य रूप से अंग्रेजी के लिए डिज़ाइन किया गया है, जिसका उद्देश्य चैट, गणित, GSM8K और IFEval जैसे विभिन्न कार्यों पर उत्कृष्ट प्रदर्शन प्रदान करना है। यह मॉडल OLMo श्रृंखला का हिस्सा है, जिसका उद्देश्य भाषा मॉडल के वैज्ञानिक अनुसंधान को आगे बढ़ाना है। मॉडल का प्रशिक्षण Dolma डेटासेट पर आधारित है, और कोड, चेकपॉइंट, लॉग और प्रशिक्षण विवरण सार्वजनिक रूप से उपलब्ध हैं।