Im Zeitalter des rasanten Fortschritts der künstlichen Intelligenz stellt sich die Frage, wie man die Leistungsfähigkeit verschiedener generativer KI-Modelle effektiv bewertet und vergleicht, als eine große Herausforderung dar. Traditionelle KI-Benchmark-Methoden zeigen zunehmend ihre Grenzen, weshalb KI-Entwickler aktiv nach innovativeren Bewertungsmethoden suchen.

Vor kurzem wurde eine Website namens „Minecraft Benchmark“ (kurz MC-Bench) vorgestellt, die sich durch ihre einzigartige Herangehensweise auszeichnet: Sie nutzt das Sandbox-Bau-Spiel Minecraft von Microsoft als Plattform. Benutzer können die Leistung verschiedener KI-Modelle anhand der von ihnen auf Basis von Prompts erstellten Spielelemente vergleichen.

QQ_1742528807600.png

Minecraft wird zur KI-Arena

Die MC-Bench-Website bietet eine intuitive und unterhaltsame Methode zur Bewertung von KI-Modellen. Entwickler geben verschiedene Prompts in die zu testenden KI-Modelle ein, die dann entsprechende Minecraft-Gebäude erstellen. Die Benutzer können diese Gebäude bewerten, ohne zu wissen, welches Modell welches Gebäude erstellt hat. Sie wählen das Gebäude aus, das ihrer Meinung nach dem Prompt am besten entspricht und am besten gelungen ist. Erst nach der Abstimmung erfahren die Benutzer, welches KI-Modell hinter welchem Gebäude steckt. Dieses „Blindwahl“-Verfahren soll die tatsächlichen Fähigkeiten der KI-Modelle objektiver widerspiegeln.

Adi Singh erklärt, dass die Wahl von Minecraft als Benchmark-Plattform nicht nur auf der Popularität des Spiels – es ist eines der meistverkauften Videospiele aller Zeiten – beruht. Viel wichtiger ist die weit verbreitete Bekanntheit und die Vertrautheit mit dem visuellen Stil des Spiels. Selbst wer das Spiel nie gespielt hat, kann relativ leicht beurteilen, welche Block-Ananas realistischer aussieht. Er ist der Ansicht, dass „Minecraft es den Menschen leichter macht, den Fortschritt [der KI-Entwicklung] zu sehen“. Diese visuelle Bewertungsform ist überzeugender als reine Textmetriken.

Funktionsfokus

MC-Bench konzentriert sich derzeit auf relativ einfache Bauaufgaben. Beispielsweise werden KI-Modelle anhand von Prompts wie „Eiskönig“ oder „Eine charmante tropische Hütte an einem unberührten Strand“ aufgefordert, Code zu schreiben, um entsprechende Spielstrukturen zu erstellen. Im Wesentlichen handelt es sich um einen Programmier-Benchmark, aber das Besondere ist, dass Benutzer keine komplexen Codes verstehen müssen. Sie können die Qualität der Ergebnisse allein anhand der visuellen Effekte beurteilen. Dies erhöht die Teilnahmebereitschaft und das Potenzial zur Datenerhebung erheblich.

Das Konzept von MC-Bench besteht darin, der breiten Öffentlichkeit das Fortschrittsniveau der KI-Technologie auf intuitive Weise näher zu bringen. „Die aktuelle Rangliste stimmt sehr gut mit meinen persönlichen Erfahrungen mit diesen Modellen überein, im Gegensatz zu vielen rein textbasierten Benchmarks“, sagt Singh. Er glaubt, dass MC-Bench für Unternehmen einen wertvollen Anhaltspunkt bieten könnte, um zu beurteilen, ob ihre KI-Forschungsrichtung richtig ist.

Obwohl MC-Bench von Adi Singh initiiert wurde, hat sich auch eine Gruppe von freiwilligen Mitwirkenden zusammengefunden. Erwähnenswert ist, dass mehrere führende KI-Unternehmen, darunter Anthropic, Google, OpenAI und Alibaba, Subventionen für die Nutzung ihrer Produkte zur Durchführung von Benchmark-Tests bereitgestellt haben. Die Website von MC-Bench erklärt jedoch, dass diese Unternehmen in keiner anderen Weise mit dem Projekt verbunden sind.

Singh hat auch große Pläne für die Zukunft von MC-Bench. Er sagt, dass die derzeitigen einfachen Bauaufgaben nur ein Anfang sind und zukünftig komplexere, langfristig angelegte und zielorientierte Aufgaben hinzukommen könnten. Er glaubt, dass Spiele ein sicheres und kontrollierbares Medium sein könnten, um die Fähigkeit von KI-„Agenten“ zum logischen Schließen zu testen – etwas, das im realen Leben schwer zu realisieren ist und daher im Testbereich von Vorteil ist.

Ein bahnbrechender neuer Ansatz zur KI-Bewertung

Neben MC-Bench wurden auch andere Spiele wie Street Fighter und Pictionary als experimentelle Benchmarks für KI verwendet. Dies zeigt, dass die KI-Benchmarking selbst ein sehr anspruchsvolles Gebiet ist. Traditionelle standardisierte Bewertungen haben oft einen „Heimvorteil“, da KI-Modelle während des Trainings für bestimmte Problemtypen optimiert wurden, insbesondere bei Aufgaben, die Auswendiglernen oder einfache Schlussfolgerungen erfordern. Beispielsweise erzielte OpenAIs GPT-4 im LSAT-Test hervorragende 88 %, konnte aber nicht die Anzahl der Buchstaben „R“ im Wort „strawberry“ bestimmen.

QQ_1742528827128.png

Anthropics Claude 3.7 Sonnet erreichte eine Genauigkeit von 62,3 % bei standardisierten Software-Engineering-Benchmarks, schnitt aber beim Spielen von Pokémon schlechter ab als die meisten Fünfjährigen.

MC-Bench bietet eine neue und leicht verständliche Perspektive auf die Bewertung der Fähigkeiten generativer KI-Modelle. Durch die Nutzung einer allgemein bekannten Spieleplattform werden komplexe KI-Fähigkeiten in einen intuitiven visuellen Vergleich umgewandelt, sodass mehr Menschen an der Bewertung und dem Verständnis von KI beteiligt werden können. Obwohl der tatsächliche Wert dieser Bewertungsform noch diskutiert wird, bietet sie zweifellos ein neues Fenster zur Beobachtung der KI-Entwicklung.