Die jüngsten Erfolge des chinesischen großen Sprachmodells DeepSeek V3 im AI-竞技场 haben die Branche in Atem gehalten. Als einziges Open-Source-Modell unter den Top Ten übertraf es nicht nur o1-mini, sondern in Bereichen wie Programmierung und Mathematik sogar Claude3.5Sonnet. Um die tatsächlichen Fähigkeiten zu überprüfen, wurden verschiedene Vergleichstests durchgeführt.
Bei Tests des grundlegenden Verständnisses zeigten beide Modelle unterschiedliche Stärken. Bei dem chinesischen Rätsel „Die Mutter von Xiaoming hat drei Kinder“, zeigte DeepSeek V3 eine hervorragende Leistung, löste es korrekt und führte sogar eine Selbstprüfung durch. Bei dem englischen Wortspiel „April Fool's Day“ hingegen zeigte es Schwächen und verstand den Wortwitz nicht, während Claude3.5Sonnet die Aufgabe problemlos meisterte.
Auch Logik-Tests lieferten interessante Ergebnisse. Bei klassischen Logikfallen von „弱智吧“ (vergleichbar mit einem Forum für unsinnige Diskussionen) fielen beide Modelle auf die Falle herein. Bei „Umkehrfluch“-Fragen zeigten beide jedoch exzellente Schlussfolgerungsfähigkeiten und erkannten die Beziehung zwischen Tom Cruise und seiner Mutter korrekt.
Im Vergleich bei Mathematik-Aufgaben für die Aufnahmeprüfung an Hochschulen zeigte DeepSeek V3 deutlich stärkere mathematische Fähigkeiten. Es konnte die Anwendung der Oberflächenintegration und des Gaußschen Satzes detailliert erklären und das richtige Ergebnis erzielen. Claude3.5Sonnet hatte zwar einen klaren Lösungsansatz, errechnete aber ein falsches Ergebnis.
Beim Vergleich der Programmierfähigkeiten übertraf DeepSeek V3 seinen Konkurrenten beim Test zur Webseitenerstellung deutlich. Dieses Ergebnis bestätigt seine hervorragende Platzierung im AI-竞技场.
Bemerkenswert ist auch der Einfluss des vollständigen o1-Modells auf das Ranking. o1 erreichte mit absoluter Überlegenheit den ersten Platz und gewann fast alle Einzeldisziplinen außer kreativem Schreiben.
Diese Tests zeigen, dass chinesische, selbst entwickelte große Sprachmodelle schnell zu den internationalen Spitzenreitern aufschließen. Die Leistung von DeepSeek V3 beweist, dass es in bestimmten Bereichen bereits mit den Top-Modellen mithalten kann und gibt der Entwicklung der chinesischen KI-Technologie neuen Auftrieb.