Im Jahr 2024 stellten sich neun KI-Sprachmodelle einer beispiellosen Herausforderung: der Teilnahme an der Gaokao, insbesondere an der extrem schwierigen Version I des neuen Lehrplans: dem Henan-Test. Dieser von den Medien initiierte Test prüfte nicht nur die Fähigkeiten der KI im akademischen Bereich, sondern bot auch einen einzigartigen Einblick in die Unterschiede zwischen künstlicher und menschlicher Intelligenz.

1.jpg

Von den neun teilnehmenden KIs erzielten vier ein Ergebnis über der Zulassungsgrenze für die Universität in Henan. GPT-4o erreichte mit 562 Punkten den ersten Platz, 41 Punkte über der Zulassungsgrenze. Doubao von ByteDance folgte mit 542,5 Punkten dicht dahinter und wurde zum Spitzenreiter unter den inländischen Modellen.

Roboter schreibt Prüfung - Roboter-Gaokao

Bildquelle: Das Bild wurde von KI generiert, Bildrechte liegen bei Midjourney.

Die KI zeigte in den Geisteswissenschaften, insbesondere in Deutsch und Englisch, eine hervorragende Leistung. In den Naturwissenschaften, besonders in Mathematik, fielen die Ergebnisse hingegen eher enttäuschend aus. Die KI zeigte einen klaren Vorteil in sprachlichen Fächern; das Verständnis alter Gedichte und Texte war beeindruckend.

Bei einfachen logischen Aufgaben schnitt die KI zufriedenstellend ab, bei Aufgaben, die komplexes Ableiten und Beweisen erforderten, jedoch weniger gut. Dies zeigt, dass die logischen Fähigkeiten noch verbessert werden müssen. In den Sozialwissenschaften war Geographie das schwächste Fach, in den Naturwissenschaften hingegen Biologie relativ stark. GPT-4o erzielte im Politikfach mit 91,5 Punkten ein herausragendes Ergebnis.

Testverfahren und Bewertungskriterien

Testdurchläufe: Um den Einfluss des Zufalls zu minimieren, wurden alle Fächer zweimal getestet, und der Durchschnitt wurde als Endergebnis verwendet.

Eingabeformat: Formeln wurden im Markdown/LaTeX-Format eingegeben, Bildaufgaben wurden entsprechend der Erkennungsfähigkeit des Modells mit Bildern und Text eingegeben.

Testablauf: Ein professioneller KI-Daten-Dienstleister führte die Tests unter einheitlichen, standardisierten Bedingungen durch, um die Fairness des Tests zu gewährleisten.

Bewertung: Es wurden die gleichen Bewertungsmaßstäbe wie bei menschlichen Kandidaten verwendet, um eine faire Bewertung zu gewährleisten.

Dieser Versuch der KI-Teilnahme an der Gaokao zeigte nicht nur die Stärken der KI in bestimmten Bereichen, sondern auch ihre Schwächen in logischem Denken und mathematischen Beweisen. Wie ein KI-Kandidat in seinem Aufsatz zitierte: „Der Weg ist weit und beschwerlich, ich werde unermüdlich suchen.“ Dies ist nicht nur ein Spiegelbild der KI-Entwicklung, sondern auch eine lebendige Beschreibung des menschlichen Strebens nach dem Unbekannten. Durch diesen Test haben wir ein tieferes Verständnis des Intelligenzniveaus der KI erlangt und wertvolle Hinweise für die zukünftige Entwicklung der KI erhalten.

Zu den Teilnehmern gehörten bekannte KI-Produkte wie GPT-4o von OpenAI, Doubao von ByteDance und Wenxin 4.0 von Baidu. Ihre Ergebnisse bei der Gaokao werden zweifellos einen tiefgreifenden Einfluss auf die Entwicklung der KI-Technologie haben.