Uma equipe da Universidade Tsinghua e outras instituições lançou o AgentBench, o primeiro benchmark sistemático para agentes de IA, avaliando 25 modelos de linguagem diferentes. Os resultados da pesquisa mostram que o GPT-4 se destaca em ambientes complexos, e que os principais modelos de linguagem comerciais apresentam uma vantagem significativa sobre os modelos de código aberto. A equipe de pesquisa recomenda melhorar ainda mais a capacidade de aprendizado dos modelos de código aberto.
Equipe da Tsinghua lidera a criação do primeiro teste de referência sistemático para agentes de IA

学生头条
15
© Todos os direitos reservados AIbase Base 2024, clique para ver a fonte - https://www.aibase.com/pt/news/258