Das von Shanghais KI-Labor, dem OpenCompass-Team, und ModelScope gemeinsam entwickelte Large-Model-Bewertungsplattform CompassArena (Große-Modell-Arena) wurde kürzlich aktualisiert, um Nutzern eine wissenschaftlichere und umfassendere Modellbewertungserfahrung zu bieten. Seit seiner Einführung hat die Plattform zahlreiche Community-Nutzer angezogen, die Daten beigetragen haben. Basierend auf diesen Daten wurde CompassArena kontinuierlich optimiert. Dieses Update beinhaltet die neue Judge Copilot-Funktion, Verbesserungen des Ranking-Algorithmus und über 20 neue Modelle.
Die Judge Copilot-Funktion nutzt das leistungsstarke Bewertungsmodell Compass-Judger-1-32B-Instruct, um Nutzern die Möglichkeit zu geben, die Leistung von Dialogmodellen umfassend zu vergleichen und zu analysieren. Von mehrdimensionaler Bewertung und Echtzeitvergleichen bis hin zur Unterstützung bei intelligenten Entscheidungen ermöglicht es präzisere und effizientere subjektive Bewertungen. Darüber hinaus wurde der Ranking-Algorithmus aktualisiert. Der ursprüngliche Bradley-Terry-Algorithmus wurde verbessert, indem Kontrollvariablen eingeführt wurden, um den Einfluss von Störfaktoren zu reduzieren und so ein wissenschaftlicheres und genaueres Modellranking zu gewährleisten. Die neu hinzugefügten Modelle umfassen inländische und ausländische kommerzielle sowie Open-Source-Modelle und bereichern das Spielerlebnis.
CompassArena legt großen Wert auf die Leistung des Judge-Modells in der Praxis und sammelt aktiv Nutzerfeedback, um die Gesamtleistung und die Ausrichtung des Judge-Modells weiter zu verbessern. Nutzer können über „Gefällt mir“- und „Gefällt mir nicht“-Buttons ihre Bewertung des Judge-Modells abgeben. Durch die Anpassung eines Bradley-Terry-Statistikmodells mit Kontrollvariablen kann CompassArena den Einfluss vieler externer Faktoren schätzen, die dann als Odds Ratio ausgedrückt werden können.
Dieses Update bringt Modelle wie 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828 (inländische kommerzielle Modelle), claude-3.5-sonnet-20241022, gemini-exp-1121 (ausländische kommerzielle Modelle) und eine Reihe von Open-Source-Modellen hinzu. Zu den Organisationen, die die neu hinzugefügten Modelle entwickelt haben, gehören 360, DeepSeek und Doubao, wodurch Nutzern eine größere Auswahl an Modellen zum Vergleich geboten wird.
Zugangsadresse: https://www.modelscope.cn/studios/opencompass/CompassArena