Kürzlich fand auf der Plattform „Minecraft“ ein ungewöhnlicher AI-Leistungstest statt, der große Aufmerksamkeit erregte. Zwei Versionen von Claude3.5Sonnet, eine ältere und eine neuere, traten in einem Bauwettbewerb gegeneinander an und zeigten deutliche Leistungsunterschiede. Die neue Version (vorläufig „Sonnet3.6“ genannt) war besonders beeindruckend.

Dieser von dem Entwickler adi initiierte Test wird scherzhaft als „der einzig zuverlässige Benchmark“ bezeichnet. Der Benchmark-Forscher Aidan McLau ist der Ansicht, dass diese Methode den aktuellen Anforderungen an die AI-Bewertung entspricht und weist darauf hin, dass ästhetisches Empfinden und Intelligenz eng miteinander verbunden sind. Das Projekt wurde schnell von der Open-Source-Community unterstützt, und der zugehörige Code wurde auf GitHub veröffentlicht.

image.png

Die Testergebnisse zeigen, dass die verschiedenen Modelle einzigartige „Persönlichkeiten“ aufweisen:

Sonnet3.6 überzeugte durch seine Kreativität und erhielt über 2000 Stimmen von Nutzern.

OpenAIs o1-preview baute zwar langsamer, erzielte aber hervorragende Ergebnisse beim Nachbau realer Gebäude (z. B. des Taj Mahal).

o1-mini konnte die Aufgaben nicht bewältigen.

Llama3405B errichtete eine „Diamantwand auf einem Feuerplatz“, die sein Selbst repräsentiert.

Auch Alis Qwen2.5-14B zeigte beachtliche Fähigkeiten.

Bemerkenswert ist, dass die AI beim Bauen im Spiel weder auf visuelle Wahrnehmung noch auf die direkte Steuerung von Eingabegeräten angewiesen ist, sondern über Textkontext und generierte Befehle arbeitet – ähnlich wie beim Blind-Schachspielen. Die technische Umsetzung basiert hauptsächlich auf:

mineflayer Open-Source-Bibliothek: Wandelt die von der AI generierten Befehle in ausführbare API-Aufrufe um.

mindcraft Open-Source-Bibliothek: Bietet allgemeine Prompts und Beispiele und unterstützt die Einbindung verschiedener Modelle in das Spiel.

Das Projektteam plant, diesen Bewertungsmechanismus weiter zu verfeinern und ein Bewertungssystem ähnlich der Lmsys-Arena zu entwickeln, das mit dem Elo-Algorithmus und basierend auf den Stimmen der Nutzer eine Rangliste erstellt. Die vollständige Testumgebung lässt sich angeblich in nur 15 Minuten einrichten.

Diese neuartige Bewertungsmethode zeigt nicht nur die Kreativität der AI, sondern bietet auch eine neue Perspektive für die objektive Bewertung der Fähigkeiten großer Sprachmodelle. Wie o1-preview beim freien Bauen zeigt, das einen Roboter baute und das Wort „GPT“ nachbildete, scheinen AIs bereits in dieser virtuellen Welt ihre „Persönlichkeit“ zu entfalten. Mit dem Beitritt weiterer Modelle entwickelt sich dieses klassische Spiel zu einer einzigartigen Plattform zur Beobachtung der AI-Entwicklung.

Video-Tutorial:

https://x.com/mckaywrigley/status/1849613686098506064

Open-Source-Code:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator