PARTNR
Benchmark für Multi-Agenten-Taskplanung und -Inferenz
Normales ProduktAndereKIMulti-Agenten
PARTNR ist ein von Meta FAIR veröffentlichter umfangreicher Benchmark mit 100.000 natürlichsprachigen Aufgaben, der darauf abzielt, Multi-Agenten-Inferenz und -Planung zu untersuchen. PARTNR nutzt Large Language Models (LLMs) zur Aufgabenerstellung und reduziert Fehler durch simulierte Schleifen. Es unterstützt auch die Bewertung von AI-Agenten mit echten menschlichen Partnern über eine Human-in-the-Loop-Infrastruktur. PARTNR zeigt die erheblichen Einschränkungen bestehender, auf LLMs basierender Planer in Bezug auf Aufgabenkoordination, -verfolgung und Fehlerbehebung auf. Menschen lösen 93% der Aufgaben, während LLMs nur 30% lösen können.
PARTNR Neueste Verkehrssituation
Monatliche Gesamtbesuche
23286
Absprungrate
45.85%
Durchschnittliche Seiten pro Besuch
2.0
Durchschnittliche Besuchsdauer
00:01:59