CritiqueLLM: Ein hochwertiges und kostengünstiges Bewertungsmodell für Textgenerierungsmodelle

Kürzlich hat Zhihu AI das hochwertige und kostengünstige Bewertungsmodell CritiqueLLM veröffentlicht, das zur Bewertung der Leistung von Textgenerierungsmodellen dient. Traditionelle Bewertungsmetriken wie BLEU und ROUGE basieren hauptsächlich auf der Übereinstimmung von n-grams und erfassen die Gesamtsemantik unzureichend. Modellbasierte Bewertungsmethoden hingegen hängen stark von der Auswahl des Basismodells ab, wobei nur Top-Spitzenmodelle zufriedenstellende Ergebnisse liefern.

Um diese Probleme zu lösen, schlägt CritiqueLLM ein erklärbares und skalierbares Modell zur Bewertung der Textqualität vor. Es kann für verschiedene Aufgaben hochwertige Bewertungen und Bewertungserklärungen generieren. Bei Vorliegen eines Referenztextes vergleicht CritiqueLLM den vom großen Modell generierten Text mit dem Referenztext und liefert eine Bewertung. In 8 gängigen Aufgaben übertraf der Korrelationskoeffizient der CritiqueLLM-Bewertungen mit menschlichen Bewertungen deutlich andere Modelle. Besonders im Szenario ohne Referenztext übertraf CritiqueLLM in 3 Aufgaben GPT-4 und erreichte die beste Bewertungsleistung.

Die Methode von CritiqueLLM umfasst vier Hauptschritte: Erweiterung der Benutzeranfrage, Sammlung von Bewertungsdaten mit Referenztext, Umschreibung von Bewertungsdaten ohne Referenztext und Training des CritiqueLLM-Modells. Durch diese Schritte lassen sich zwei CritiqueLLM-Modelle erhalten, die sowohl für Szenarien mit als auch ohne Referenztext geeignet sind und zur Bewertung der Leistung von Textgenerierungsmodellen eingesetzt werden können.