PARTNR

Benchmark für Multi-Agenten-Taskplanung und -Inferenz

Normales ProduktAndereKIMulti-Agenten
PARTNR ist ein von Meta FAIR veröffentlichter umfangreicher Benchmark mit 100.000 natürlichsprachigen Aufgaben, der darauf abzielt, Multi-Agenten-Inferenz und -Planung zu untersuchen. PARTNR nutzt Large Language Models (LLMs) zur Aufgabenerstellung und reduziert Fehler durch simulierte Schleifen. Es unterstützt auch die Bewertung von AI-Agenten mit echten menschlichen Partnern über eine Human-in-the-Loop-Infrastruktur. PARTNR zeigt die erheblichen Einschränkungen bestehender, auf LLMs basierender Planer in Bezug auf Aufgabenkoordination, -verfolgung und Fehlerbehebung auf. Menschen lösen 93% der Aufgaben, während LLMs nur 30% lösen können.
Website öffnen

PARTNR Neueste Verkehrssituation

Monatliche Gesamtbesuche

23286

Absprungrate

45.85%

Durchschnittliche Seiten pro Besuch

2.0

Durchschnittliche Besuchsdauer

00:01:59

PARTNR Besuchstrend

PARTNR Geografische Verteilung der Besuche

PARTNR Traffic-Quellen

PARTNR Alternativen