In der Welt der künstlichen Intelligenz ist das Gaokao (chinesische Hochschulzugangsprüfung) nicht mehr nur eine Bühne für Menschen. Kürzlich ließ das Shanghai Artificial Intelligence Laboratory mit einer außergewöhnlichen „Gaokao“-Prüfung die akademischen Fähigkeiten von KI aufblitzen. Sie nutzten das OpenCompass-Bewertungssystem, um sieben KI-Modelle, darunter GPT-4o, in den Fächern Chinesisch, Mathematik und Englisch umfassend zu testen.
Bildquelle: KI-generiertes Bild, Bildrechte: Midjourney
Für den Test wurde die landesweit gültige Version I des neuen Lehrplans verwendet. Alle beteiligten Open-Source-Modelle wurden vor der Gaokao veröffentlicht, um die Fairness des Tests zu gewährleisten. Die „Antwortbögen“ der KIs wurden von erfahrenen Gaokao-Korrektoren bewertet, um möglichst objektive Ergebnisse zu erzielen.
Die bewerteten Modelle stammten aus unterschiedlichen Quellen: Mixtral8x22B, ein von der französischen KI-Firma Mistral veröffentlichtes Dialogmodell; Yi-1.5-34B von Zero One Wanwu; GLM-4-9B von Zhipu AI; InternLM2-20B-WQX vom Shanghai Artificial Intelligence Laboratory; und die Qwen2-Serie von Alibaba. GPT-4o, ein geschlossenes Modell, diente lediglich als Referenz.
Das Ergebnis: Qwen2-72B erreichte mit 303 Punkten den ersten Platz, gefolgt von GPT-4o mit 296 Punkten und InternLM2-20B-WQX mit 295,5 Punkten. Die Modelle schnitten in Chinesisch und Englisch gut ab; die durchschnittliche Punktzahl in Chinesisch lag bei 67 %, in Englisch sogar bei 81 %. In Mathematik hingegen lag die durchschnittliche Punktzahl aller Modelle nur bei 36 %, was zeigt, dass KI im Bereich des mathematischen Denkens noch erhebliche Verbesserungspotenziale aufweist.
Die Korrektoren analysierten die Antworten der KI-Modelle umfassend. Im Fach Chinesisch bewältigten die Modelle das Verständnis moderner Texte im Allgemeinen gut, hatten aber bei klassischer Literatur und Aufsätzen Schwierigkeiten. In Mathematik zeigten die Modelle zwar ein gutes Formelgedächtnis, aber ihre Fähigkeit, Formeln flexibel anzuwenden, war noch mangelhaft. Der Englischtest wurde insgesamt gut gemeistert, aber bei einigen Aufgabentypen erzielten einige Modelle niedrigere Punktzahlen.
Diese „Gaokao für große Sprachmodelle“ zeigte nicht nur das Potenzial der KI im akademischen Bereich, sondern auch ihre Grenzen beim Verständnis und der Anwendung von Wissen. Mit dem Fortschritt der Technologie dürfen wir erwarten, dass zukünftige KIs intelligenter werden und der menschlichen Gesellschaft besser dienen.