PARTNR
Benchmark de Planejamento e Raciocínio Multiagente
Produto ComumOutrosIAMultiagente
PARTNR é um benchmark em larga escala lançado pelo Meta FAIR, contendo 100.000 tarefas em linguagem natural, com o objetivo de estudar o raciocínio e o planejamento multiagente. O PARTNR utiliza modelos de linguagem grandes (LLMs) para gerar tarefas e usa loops de simulação para reduzir erros. Ele também suporta a avaliação de agentes de IA com parceiros humanos reais, por meio de uma infraestrutura de loop humano. O PARTNR revela limitações significativas em planejadores baseados em LLM existentes em termos de coordenação de tarefas, rastreamento e recuperação de erros; humanos conseguem resolver 93% das tarefas, enquanto LLMs resolvem apenas 30%.
PARTNR Situação do Tráfego Mais Recente
Total de Visitas Mensais
23286
Taxa de Rejeição
45.85%
Média de Páginas por Visita
2.0
Duração Média da Visita
00:01:59