OLMo-2-1124-13B-DPO ist ein großes Sprachmodell mit 13 Milliarden Parametern, das durch überwachtes Feintuning und DPO-Training optimiert wurde. Es ist primär auf Englisch ausgerichtet und bietet hervorragende Leistung in verschiedenen Aufgaben wie Chat, Mathematik, GSM8K und IFEval. Das Modell ist Teil der OLMo-Serie und zielt darauf ab, die wissenschaftliche Forschung im Bereich Sprachmodelle voranzutreiben. Das Modell wurde auf dem Dolma-Datensatz trainiert, und Code, Checkpoints, Logs und Trainingsdetails werden öffentlich bereitgestellt.