Uma equipe da Universidade Tsinghua e outras instituições lançou o AgentBench, o primeiro benchmark sistemático para agentes de IA, avaliando 25 modelos de linguagem diferentes. Os resultados da pesquisa mostram que o GPT-4 se destaca em ambientes complexos, e que os principais modelos de linguagem comerciais apresentam uma vantagem significativa sobre os modelos de código aberto. A equipe de pesquisa recomenda melhorar ainda mais a capacidade de aprendizado dos modelos de código aberto.