Tele-FLM (auch bekannt als FLM-2) ist ein quelloffenes, multilingual großes Sprachmodell mit 52 Milliarden Parametern. Es zeichnet sich durch ein stabiles und effizientes Pretraining-Verfahren und verbesserte Fähigkeiten zur Faktenprüfung aus. Basierend auf einer Decoder-only Transformer-Architektur wurde es mit etwa 2 Billionen Tokens trainiert. Tele-FLM zeigt im Vergleich zu Modellen ähnlicher Größe eine überragende Leistung und übertrifft mitunter sogar größere Modelle. Neben den Modellgewichten stellen wir auch das Kernkonzept, die technischen Praktiken und die Trainingsdetails zur Verfügung, in der Hoffnung, dass diese der akademischen und industriellen Community zugutekommen.