Am 4. September 2024 gab das Beijing Academy of Artificial Intelligence (BAAI) die Einführung von FlagEval, der weltweit ersten Modell-Battle-Arena mit Video-Generierung aus Text, bekannt.
Dieser Service steht Nutzern offen und umfasst etwa 40 in- und ausländische große Sprachmodelle. Er unterstützt die benutzerdefinierte Online- oder Offline-Bewertung von vier Aufgaben: Sprachfragen, multimodalem Verständnis von Bildern und Texten, Text-zu-Bild-Generierung und Text-zu-Video-Generierung. FlagEval bietet nicht nur Bewertungen zu vordefinierten Fragen zu Themen wie einfachem Verständnis, Wissensanwendung, Code-Fähigkeiten und Schlussfolgerungsfähigkeit, sondern führt erstmalig ein hierarchisches Bewertungssystem mit subjektiven Tendenzen ein, um die Unterschiede in der Modellleistung genauer aufzuzeigen.
Der Service verwendet eine anonyme Bewertungsmechanik, um die Fairness des Bewertungsprozesses zu gewährleisten. Nutzer können über die Web-Oberfläche oder den ersten mobilen Zugangspunkt in China an der Bewertung teilnehmen und die effiziente Modell-Battle-Bewertung erleben. Die Ergebnisse der FlagEval-Bewertung werden sofort veröffentlicht und in einer Rangliste dargestellt, die die Leistung der verschiedenen Modelle im Vergleich zeigt.
Das Zhiyuan-Institut erklärte, dass die gesamten Daten der Modell-Battle-Bewertung Open Source zur Verfügung gestellt werden, um die Entwicklung des Ökosystems für die Bewertung großer Sprachmodelle zu fördern. Die Einführung von FlagEval erweitert die technologische Ausrichtung und die Entwicklung von Methoden im Bereich der Modellbewertung von Zhiyuan und bietet der Forschung und Anwendung im Bereich der künstlichen Intelligenz neue Test- und Bewertungswerkzeuge.
Test-Adresse:https://flageval.baai.ac.cn/#/home