Anthropics neuestes Modell, Claude 3.5 Sonnet, zeigte in jüngsten technischen Bewertungen eine bemerkenswerte Leistung und übertraf sogar die Fähigkeiten von promovierten Experten. Im Graduate-Level Question Answering (GPQA) Test erzielte Claude 3.5 Sonnet einen Score von 67,2 %. Dies ist nicht nur die erste Überschreitung der 65%-Marke für ein großes Sprachmodell in dieser Art von Bewertung, sondern markiert auch einen neuen Höhepunkt im Verständnis und Beantworten komplexer wissenschaftlicher Fragen.

GQrRBTfa0AAwXFe.jpg

GPQA dient als Benchmark zur Messung der Fähigkeiten von Sprachmodellen, wissenschaftliche Fragen auf Graduiertenniveau zu beantworten. Es umfasst eine Reihe komplexer und anspruchsvoller Fragen, die hohe Anforderungen an die Schlussfolgerungsfähigkeit und die Wissensintegration des Modells stellen. In diesem anspruchsvollen Test lag die durchschnittliche Punktzahl von Doktoranden bei etwa 34 %, während Fachdoktoranden durchschnittlich 65 % erreichten. Bemerkenswert ist, dass ein GPQA-Score von 60 % einem Intelligenzquotienten (IQ) von etwa 150 entspricht.

GQrRofibYAAK9Mx.jpg

Obwohl derzeit keine konkreten Daten zu GPT-4o und GPT-4T im GPQA-Test vorliegen, deutet alles darauf hin, dass Claude 3.5 Sonnet diese Modelle übertrifft. In anderen relevanten Bewertungen, wie z. B. der 0-shot CoT-Bewertung, erzielte Claude 3.5 Sonnet ebenfalls höhere Werte als GPT-4o (53,6 %) und GPT-4T (48,0 %), was seine führende Position im Bereich Sprachverständnis und Fragenbeantwortung weiter unterstreicht.

Dieser Erfolg von Anthropic zeigt nicht nur die Leistungsfähigkeit von Claude 3.5 Sonnet, sondern setzt auch einen neuen Maßstab für große Sprachmodelle bei der Bearbeitung anspruchsvoller Wissensfragen. Mit dem Fortschritt der Technologie wird das Anwendungspotenzial dieser Modelle in verschiedenen Bereichen zweifellos weiter wachsen.