Das Beijing Academy of Artificial Intelligence (BAAI) Forschungsinstitut hat ein Bewertungsmodell namens JudgeLM als Open Source veröffentlicht. Dieses Modell bewertet verschiedene große Sprachmodelle effizient und präzise.
Im Vergleich zu GPT-4 erreicht JudgeLM mit nur 1/120 der Kosten eine Übereinstimmung der Bewertungsergebnisse von über 90%. JudgeLM ist auf verschiedene Bewertungsszenarien anwendbar, darunter reine Texte und multimodale Daten, und kann Punktzahlen, Urteile und Begründungen liefern.
Durch innovative Methoden erreicht JudgeLM eine Übereinstimmung mit Referenzantworten von über 90%, was dem menschlichen Leistungsniveau nahekommt.
Das BAAI Forschungsinstitut hat außerdem einen Datensatz mit Trainings- und Validierungsbeispielen als Open Source veröffentlicht, um die Forschung zu Bewertungsmethoden für große Sprachmodelle zu fördern.
Zukünftig wird das JudgeLM-Team das Bewertungsmodell weiter verbessern und ein noch genaueres, effizienteres und vielseitigeres Modell für die Bewertung großer Sprachmodelle bereitstellen.