Das Beijing Academy of Artificial Intelligence (BAAI) hat kürzlich FlagEval Debate vorgestellt, die weltweit erste Plattform für Debatten mit großen chinesischen Sprachmodellen. Diese neue Plattform zielt darauf ab, durch den Wettbewerbsmechanismus von Modelldebatten neue Messmethoden für die Leistungsbewertung großer Sprachmodelle zu liefern. Sie ist eine Erweiterung des FlagEval-Modells für Modell-Wettkämpfe und soll die Leistungsfähigkeit großer Sprachmodelle differenzieren.
Bestehende Modell-Wettkämpfe weisen einige Probleme auf, wie z. B. häufig unentschiedene Ergebnisse, die die Unterscheidung zwischen den Modellen erschweren; die Abhängigkeit der Testergebnisse von Nutzerabstimmungen, die eine große Anzahl von Nutzern erfordert; und das Fehlen von Interaktion zwischen den Modellen. Um diese Probleme zu lösen, hat das BAAI die Bewertung in Form von Modelldebatten eingeführt.
Debattieren als sprachbasierte intellektuelle Aktivität spiegelt das logische Denken, die sprachliche Gestaltung sowie die Fähigkeiten zur Informationsanalyse und -verarbeitung der Teilnehmer wider. Modelldebatten zeigen das Niveau der großen Sprachmodelle in Bezug auf Informationsverständnis, Wissensintegration, logisches Denken, Sprachgenerierung und Konversationsfähigkeit und testen gleichzeitig deren Informationsverarbeitungstiefe und Anpassungsfähigkeit in komplexen Kontexten.
Das BAAI hat festgestellt, dass diese interaktive Wettkampfform der Debatte die Unterschiede zwischen den Modellen hervorhebt und eine effiziente Modellrangfolge auf Basis einer geringen Anzahl von Datenbeispielen ermöglicht. Daher wurde die auf Crowdsourcing basierende Plattform FlagEval Debate für Debatten mit großen chinesischen Sprachmodellen eingeführt.
Die Plattform unterstützt Debatten zwischen zwei Modellen zu einem Debattenthema. Die Themen werden zufällig von der Plattform ausgewählt und stammen hauptsächlich aus Trending Topics, von Bewertungsexperten und von Top-Debattexperten. Alle Nutzer können jede Debatte auf der Plattform bewerten, um die Nutzererfahrung zu verbessern.
Jede Modelldebatte umfasst fünf Runden von Meinungsäußerungen, wobei jede Seite einmal die Gelegenheit hat, die Pro- und die Contra-Position einzunehmen. Um Verzerrungen durch die Positionierung zu vermeiden, nehmen beide Modelle einmal die Pro- und einmal die Contra-Position ein. Jedes große Sprachmodell nimmt an mehreren Debatten mit anderen Modellen teil, und die endgültige Modellrangfolge wird anhand der erreichten Punkte berechnet.
Modelldebatten werden sowohl durch offenes Crowdsourcing als auch durch Expertenbewertung durchgeführt. Die Expertenjury besteht aus professionellen Debattanten und -richtern. Das Publikum des offenen Crowdsourcings kann frei mitwirken und abstimmen.
Das BAAI wird weiterhin die technischen Wege und den Anwendungswert von Modelldebatten erforschen, die Prinzipien von Wissenschaftlichkeit, Autorität, Fairness und Offenheit einhalten, das FlagEval-Bewertungssystem für große Sprachmodelle kontinuierlich verbessern und neue Erkenntnisse und Überlegungen für das Ökosystem der Bewertung großer Sprachmodelle liefern.
FlagEval Debate Webseite:
https://flageval.baai.org/#/debate