Eine neue Studie zeigt, dass selbst fortschrittliche KI-Sprachmodelle wie OpenAIs neuestes o1-preview bei komplexen Planungsaufgaben Schwierigkeiten haben.
Die Studie wurde von Wissenschaftlern der Fudan-Universität, der Carnegie Mellon Universität, ByteDance und der Ohio State Universität durchgeführt und testete die Leistung von KI-Modellen anhand zweier Planungsbenchmarks: BlocksWorld und TravelPlanner.
In BlocksWorld, einer klassischen Planungsaufgabe, lag die Genauigkeit der meisten Modelle unter 50%. Nur o1-mini (knapp unter 60%) und o1-preview (nahe 100%) zeigten eine relativ gute Leistung.
Bei der komplexeren Aufgabe TravelPlanner waren jedoch alle Modelle enttäuschend. Die Erfolgsrate von GPT-4o lag bei nur 7,8%, während o1-preview 15,6% erreichte. Andere Modelle wie GPT-4o-Mini, Llama3.1 und Qwen2 erzielten Ergebnisse zwischen 0 und 2,2%. Obwohl o1-preview im Vergleich zu GPT-4o eine Verbesserung zeigt, bleibt es weit hinter den menschlichen Planungsfähigkeiten zurück.
Die Forscher identifizierten zwei Hauptprobleme. Erstens zeigten die Modelle Schwächen bei der Integration von Regeln und Bedingungen, was zu Planungen führte, die die vorgegebenen Richtlinien verletzten. Zweitens verloren sie im Laufe der Planung zunehmend den Fokus auf das ursprüngliche Problem. Um den Einfluss verschiedener Inputkomponenten auf den Planungsprozess zu messen, verwendete das Forschungsteam eine Methode zur „Permutation Feature Importance“.
Darüber hinaus testete das Forschungsteam zwei gängige Strategien zur Verbesserung der Planungsfähigkeit von KI. Die erste, die Aktualisierung des episodischen Gedächtnisses, nutzt Wissen aus früheren Planungsversuchen. Dies verbesserte zwar das Verständnis von Einschränkungen, führte aber nicht zu einer detaillierteren Betrachtung einzelner Regeln. Die zweite, die Aktualisierung des parametrischen Gedächtnisses, verstärkte durch Feinabstimmung den Einfluss der Aufgabe auf die Planung. Das Kernproblem – die abnehmende Wirkung im Verlauf der Planung – blieb jedoch bestehen. Beide Methoden führten zwar zu Verbesserungen, lösten das grundlegende Problem aber nicht vollständig.
Erwähnenswert ist, dass der zugehörige Code und die Daten in Kürze auf GitHub veröffentlicht werden.
Code-Zugang: https://github.com/hsaest/Agent-Planning-Analysis
Wichtigste Punkte:
🌍 Die Studie zeigt, dass KI-Modelle wie OpenAIs o1-preview bei komplexer Reiseplanung schlecht abschneiden; die Erfolgsrate von GPT-4o beträgt nur 7,8%.
📉 Die meisten Modelle zeigen in BlocksWorld eine akzeptable Leistung, scheitern aber im TravelPlanner weitgehend.
🧠 Die Studie zeigt, dass die Modelle hauptsächlich Probleme mit der unzureichenden Integration von Regeln und dem Verlust des Fokus im Zeitverlauf haben.