Zhihu AI hat AlignBench veröffentlicht, einen speziell für chinesische Large Language Models (LLMs) entwickelten Bewertungsmaßstab. Dies ist der erste Bewertungsmaßstab dieser Art für chinesische LLMs und ermöglicht eine detaillierte mehrdimensionale Bewertung der Übereinstimmung zwischen Modell und menschlicher Absicht.
Die Datenmenge von AlignBench stammt aus realen Anwendungsszenarien. Sie wurde durch verschiedene Schritte wie erste Strukturierung, Prüfung auf Sensibilität, Generierung von Referenzantworten und Schwierigkeitsselektion erstellt, um Realitätsnähe und Herausforderungen zu gewährleisten. Der Datensatz ist in 8 große Kategorien unterteilt, darunter Wissensfragen, Textgenerierung und Rollenspiele.
Um Automatisierung und Reproduzierbarkeit zu gewährleisten, verwendet AlignBench Bewertungsmodelle (wie GPT-4 und CritiqueLLM), um die Antworten jedes Modells zu bewerten und so die Antwortqualität zu repräsentieren. Die Bewertungsmodelle verfügen über eine mehrdimensionale, regelbasierte Bewertungsmethode, die die Übereinstimmung zwischen Modell- und menschlicher Bewertung erhöht und eine detaillierte Bewertungs- und Ergebnisanalyse liefert. Entwickler können AlignBench zur Bewertung nutzen und leistungsstarke Bewertungsmodelle (wie GPT-4 oder CritiqueLLM) verwenden.
Über die AlignBench-Website können Sie Ihre Ergebnisse einreichen und CritiqueLLM als Bewertungsmodell verwenden. Sie erhalten die Bewertungsergebnisse in etwa 5 Minuten.