Im Zuge des ChatGPT-Hypes wurden in- und ausländische Rankinglisten für große Sprachmodelle veröffentlicht. Die Rangfolge ähnlicher Modelle variiert jedoch stark zwischen den verschiedenen Listen. Branchenexperten und Wissenschaftler führen dies hauptsächlich auf die unterschiedlichen Testdatensätze zurück, sowie auf den steigenden Anteil subjektiver Aufgaben, der die Objektivität der Bewertung in Frage stellt. Daher gewinnen unabhängige Bewertungsorganisationen wie OpenCompass und FlagEval zunehmend an Bedeutung. Die Branche ist sich jedoch einig, dass eine wirklich umfassende und effektive Bewertung großer Sprachmodelle auch die Robustheit und Sicherheit des Modells berücksichtigen muss – ein Bereich, der sich noch in der Entwicklung befindet.